





3 4 
“TURiNG 图 灵 程序 | 设 1 要 ME 


¢ ' 
二 J ‘ + 
A 
| 


NPACKT] 


PUYBLISHING 










、 4 
rateek Joshi 著 陶 俊杰 陈 小 莉 译 


Python 
机 器 学 习 经 典 实例 


mA Ale /kTol lol liale Oele] ,olele] 


中 国 工 信忠 版 集团 ”天 人 民 邮 电 出 版 社 


SF PoSTS&TELECOM PRESS 


效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
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内 容 提 要 


在 如 今 这 个 处 处 以 数据 驱动 的 世界 中 ,机 器 学 习 正 变 得 越 来 越 大 众 化 。 它 已 经 被 广泛 地 应 月 


日 于 不 同 领 域 ， 





如 搜索 引擎 、 机 器 人 、 无 人 驾驶 汽车 等 。 本 书 首先 通过 实用 的 案例 介绍 机 器 学 习 的 基础 知识 ， 然 后 介绍 一 
些 稍微 复杂 的 机 器 学 习 算 法 ， 例 如 支持 向 量 机 、 极 端 随机 森林 、 隐 马尔 可 夫 模 型 、 条 件 随机 场 、 深 度 神经 





网 络 ， 等 等 。 


本 书 是 为 想 用 机 器 学 习 算法 开发 应 用 程序 的 Python 各 





悉 Python 编程 方法 对 体验 示例 代码 大 有 神 益 。 
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序 员 准备 的 。 它 适合 Python 初学 者 阅读 ， 不 过 熟 
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译 者 序 


有 一 天 ， 忽 然 想到 自己 整 天 面 对 着 52 个 英文 字母 、9 个 数字 、32 个 符号 "和 一 个 空格 ,经 常 
加 班 没有 双休日 ， 好 傻 。 时 间 不 断 被 各 种 噪声 碎片 化 ， 完 全 就 是 毛 姆 在 《月 亮 和 六 便士 》 里 写 
的 ,“Ifyou look on the ground in search of a sixpence, you don’t look up, and so miss the moon”, 
整 天 低头 刷 手 机 ， 却 不 记得 举 头 户 明月。 生活 也 愈 发 无 序 ， 感觉 渐渐 被 掏 空 。 莅 定 户 的 《生命 
是 什么 》 给 我 提 了 个 醒 ， 他 在 “以 “ 负 凡 ” 为 生 ”(It Feeds On “negative Entropy”) 一 节 指 出 : 
“要 活着 ， 唯 一 的 办 法 就 是 从 环境 里 不 断 地 汲取 负 箭 。” 在 介绍 了 业 的 概念 及 其 统计 学 意义 之 后 ， 
他 紧 接 着 在 “从 环境 中 引出 “有 序 ” 以 维持 组 织 ”( Organization Maintained By Extracting “Order” 
From The Environment ) 一 节 进 一 步 总 结 :“ 一 个 有 机 体 使 本 身 稳定 在 较 高 的 有 序 水 平 上 ( 等 于 丧 
的 相当 低 的 水 平 上 ) 的 办 法 ， 就 是 从 环境 中 不 断 地 吸取 秩序 。” 这 个 秩序 ( 负 录 、4og(l/z ) 可 以 
是 食物 ， 也 可 以 是 知识 ， 按 主流 叫 法 就 是 “ 正 能 量 ”( 有 些 所 谓 正 能 量 却 碰巧 是 增加 系统 无 序 水 
平 的 正 录 )。 于 是 ,我 开始 渐渐 放弃 那些 让 人 诅 丧 的 老 梗 ， 远 离 那些 引发 混乱 的 噪声 ， 重 新 读书 ， 
试 着 翻译 ， 学 会 去 爱 。 这 几 年 最 大 的 收获 就 是 明白 了 “隔行 如 隔山 ”的 道理 ， 试 着 循序 渐进 ， 教 
学 相 长 ， 做 力所能及 之 事 ， 让 编程 变 简单 。 


一 般 人 都 不 喜欢 编程 ， 更 不 喜欢 动手 编程 ( 时 间 消 耗 : 编写 & 测 试 40%、 重 构 40%、 风 格 && 
文档 20% )， 却 喜欢 在 心里 、 嘴 上 编程 :“ 先 这 样 ， 再 那样 ， 如 果 要 XX， 就 YY， 最 后 就 可 以 ZZ 
了 。 分 分 钟 就 可 以 说 完 几 万 行 代码 的 项 目 , 水 还 剩 大 半 杯 ,一 旦 大 期 将 近 , 即使 要 亲自 动手 Copy 
代码 ， 也 会 觉得 昔 堪 搬 砖 ,键盘 不 是 红 与 黑 、 屏 幕 不 能 左右 推 、 小 狗 总 是 六 跑 追 ， 不 断 在 数 不 清 
的 理由 中 增加 自己 的 炉 。 偶尔 看 编程 书 的 目的 也 很 明确 ， 就 是 为 了 快速 上 手 ， 找 到 答案 。 当 然 也 
是 在 Google、StackOverflow、GitHub 网 站 上 找 不 到 答案 之 后 ,无 可 奈何 之 举 。 编 程 书 把 看 着 复杂 
的 知识 写 得 更 复杂 ,虽然 大 多 篇 幅 不 输 “ 飞 雪 连 天 射 白 鹿 ， 笑 书 神 侠 倚 碧 竹 ” 等 经 典 ， 日 纲 举 目 
张 、 图 文 并 茂 , 甚至 有 作者 爱 引 经 据 典 , 却 极 少 有 令 人 拍案 的 惊奇 之 处 。 为 什么 同样 是 文 以 载 道 ， 
编程 书 却 不 能 像 武侠 小 说 一 样 简单 具体 , 反而 显得 了 无 生 趣 , 令 人 望而却步 ? 虽然 编程 的 目的 就 
是 用 计算 机 系统 解决 问题 ,但 是 大 多 数 问题 的 知识 都 在 其 他 领域 中 ,许多 作者 在 介绍 编程 技巧 时 ， 
又 试图 介绍 一 些 并 不 熟悉 的 背景 知识 ， 显 得 生 涩 难 懂 ， 且 增加 了 书 的 厚度 。 
































































































































































































































































































































GD 见 文 末 Python 示例 代码 。 





有 时 我 们 真正 需要 的 ， 就 是 能 快刀 斩 乱 麻 的 代码 。( Talk is cheap, show me the code. ) 编程 与 
研究 数理 化 不 同 ， 没 有 任何 假设 、 原 命题 、 思 维 实验 ,并 非 科 学 ; 与 舞 剑 、 奏 乐 、 炒 菜 相似 ， 都 
是 手艺 ， 只 要 基础 扎实 , 便 结果 立 判 。 编 程 技 巧 也 可 以 像 剑 谱 、 乐 谱 、 食 谱 一 般 立 笔 见 影 ， 这 本 
《Python 机 器 学 习 经 典 实例 》 正 是 如 此 ， 直 接 上 代码 ， 照 着 做 就 行 ， 不 用 纠结 为 什么 。 


机 器 学 习 是 交叉 学 科 ， 应 用 广泛 ， 目 前 主流 方法 为 统计 机 器 学 习 。 既 然 是 以 统计 学 为 基础 ， 
那么 就 不 只 是 计算 机 与 数学 专业 的 私房 菜 了 ， 机 器 学 习 在 自然 科学 、 农 业 科学 、 医 药 科 学 、 工 程 
与 技术 科学 、 人 文 与 社会 科学 等 多 种 学 科 中 均 可 应 用 。 如 果 你 遇 到 了 回归 、 分 类 、 预 测 、 聚 类 、 
文本 分 析 、 语 音 识别 、 图 像 处 理 等 经 典 问题 ,需要 快速 用 Python 解 决 ， 那么 这 本 菜谱 适合 你 。 即 
使 你 对 机 需 学 习 方 法 还 一 知 半 解 ， 也 不 妨 一 试 。 毕 竟 是 Python 的 机 器 学 习 ， 还 能 难 到 哪儿 去 呢 ? 
目前 十 分 流行 的 Python 机 器 学 习 库 scikit-learn? 是 全 书 主角 之 一 ， 功 能 人 全面， 接口 友好 ,， 许 多 经 典 
的 数据 集 和 机 器 学 习 案例 都 来 自 Kaggle?。 若 有 时 间 追 根 溯源 ， 请 研究 周志 华 教授 的 《机 器 学 习 》 
西瓜 书 , 周 教授 哺 着 西瓜 把 机 器 学 习 调侃 得 淋漓 尽 致 ,详细 的 参考 文献 尤为 珍贵 。 但 是 想 当 作 菜 
谱 看 , 拿 来 就 用 , 还 是 需要 费 一 番 功 夫 ; 若 看 书 不 过 瘾 , 还 有 吴 恩 达 ( Andrew Ng ) 教授 在 Coursera 
上 的 机 器 学 习 公 开课 ， 机 器 学 习 和 人 门 最 佳 视 频 教 程 ， 吴 教授 用 的 工具 是 Matlab 的 免费 开源 版 本 
Octave”， 你 也 可 以 用 Python 版 ”演示 教学 示例 。 


学 而 时 习 之 , 不 亦 乐平 。 学 习 编程 技巧 , 解决 实际 问题 , 是 一 件 快乐 的 事情 ,希望 这 本 Python 
机 器 学 习 经 典 案例 ,可 以 成 为 你 的 负 丧 ， 帮 你 轻松 化 解 那些 陈 年 老 梗 。 如 果 再 努 努 力 ， 也许 陆 涩 
铃 院 十 在 《机 器 学 习 》 序 言 中 提出 的 6 个 问题 *， 你 也 有 答案 了 。 


示例 代码 : 


"" "打印 ASCIT 字 母 表 、 数 字 、 标 点 符号 """ 












































































































































import string 


for item in [string.ascii_ letters, 





QD scikit-learn 网 址 : http://scikit-learn.org/stable/。 

@ Kaggle 是 一 个 2010 年 成 立 的 数据 建 模 和 数据 分 析 竞 赛 平台 ， 全 球 数据 科学 家 、 统 计 学 家 、 机 器 学 习 工 程 师 的 聚集 
地 , 上 面 有 丰富 的 数据 集 , 经 典 的 机 器 学 习 基 础 教程 , 以 及 让 人 流 口 水 的 竞赛 奖金 , 支持 Python 、R、Julia、SQLite， 
同时 也 支持 jupyter notebook 在 线 编程 环境 ，2017 年 3 月 8 日 被 谷歌 收购 。 

@ 分 免费 版 和 付费 版 〈 购买 结业 证 书 )， 学 习 内 容 一 样 ，https://zh.coursera.org/learn/machine-learning。 

由 Octave 下 载 地 址 : https://www.gnu.org/software/octave/。 

@) GitHub 项 目 : https://github.com/mstampfer/Coursera-Stanford-ML-Python。 

@ 陆 院 士 的 6 个 问题 分 别 是 : 1. 机 器 学 习 早 期 的 符号 机 器 学 习 ， 如 何在 统计 机 器 学 习 主 流 中 发 展 ; 2. 统计 机 器 学 习 
算法 中 并 不 现实 的 “独立 同 分 布 ”假设 如 何 解 决 ，3. 深度 学 习 得 益 于 硬件 革命 ， 是 否 会 取代 统计 机 器 学 习 ; 4. 机 器 
学 习 用 的 都 是 经 典 的 概率 统计 、 代 数 逻 辑 ， 而 目前 仅 有 倒 向 微分 方程 用 于 预测 ， 微 分 几何 的 流 形 用 于 降 维 ( 流 形 
学 习 ，Manifold learning， 科普 见 博文 http://blog.pluskid.org/?p=533 )， 只 是 数学 领域 的 一 角 ， 其 他 现代 数学 理论 是 
否 可 以 参与 其 中 ; 5. 机 器 学 习 方法 仍 不 够 严 弄 ， 例 如 目前 流 形 学 习 直 接 将 高 维 数据 集 假设 成 微分 流 形 ， 需 要 进 
步 完 善 ;6. 大 数据 与 统计 机 器 学 习 是 如 何 互 动 的 。 
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String digites, 
string.punctuation]: 
print ('{}\t{}'.format (len(item), item)) 


输出 结果 : 


52 abcdefghijklmnopqrstuvwxyzZzABCDEFGHIJKLMNOPQRSTUVWXYZ 
10 0123456789 


32 1"#$%g' ()*+,-./:;<=>?@[\]^_ {|}~ 


了 路 
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在 如 今 这 个 处 处 以 数据 驱动 的 世界 中 , 机 絮 学 习 正 变 得 越 来 越 大 众 化 。 它 已 经 被 广泛 地 应 用 
于 不 同 领域 ， 如 搜索 引擎 、 机 器 人 、 无 人 鸭 驶 汽车 等 。 本 书 不 仅 可 以 帮 你 了 解 现 实生 活 中 机 顺 学 
习 的 应 用 场景 ， 而 且 通 过 有 趣 的 菜谱 式 教程 教 你 掌握 处 理 具体 问题 的 算法 。 


本 书 首先 通过 实用 的 案例 介绍 机 需 学 习 的 基础 知识 ， 然 后 介绍 一 些 稍微 复杂 的 机 需 学 习 算 
法 ,例如 支持 向 量 机 、 极 端 随机 森林 、 隐 马尔 可 夫 模 型 、 条 件 随机 场 、 深 度 神经 网 络 ， 等 等 。 本 
书 是 为 想 用 机 器 学 习 算 法 开发 应 用 程序 的 Python 程序 员 准 备 的 。 它 不 仅 适 合 Python 初 学 者 ( 当然 ， 
熟悉 Python 编程 方法 将 有 助 于 体验 示例 代码 )， 而 且 也 适合 想 要 掌握 机 器 学 习 技 术 的 Python 老手 。 


通过 本 书 , 你 不 仅 可 以 学 会 如 何 做 出 合理 的 决策 , 为 自己 选择 合适 的 算法 类 型 ,而 且 可 以 学 
会 如 何 高 效 地 实现 算法 以 获得 最 佳 学 习 效 果 。 如 果 你 在 图 像 、 文 字 、 语 音 或 其 他 形式 的 数据 处 理 
中 过 到 困难 ， 书 中 处 理 这 些 数据 的 机 器 学 习 技 术 一 定 会 对 你 有 所 帮助 ! 




































































本 书 内 容 


第 1 章 介绍 各 种 回归 分 析 的 监督 学 习 技 术 。 我 们 将 学 习 如 何 分 析 共 享 自 行车 的 使 用 模式 ， 以 
及 如 何 预测 房价 。 


第 2 章 介 绍 各 种 数据 分 类 的 监督 学 习 技 术 。 我 们 将 学 习 如 何 评 佑 收入 层级 ， 以 及 如 何 通过 特 
征 评估 一 辆 二 手 汽车 的 质量 。 


第 3 章 论 述 支 持 向 量 机 的 预测 建 模 技术 。 我 们 将 学 习 如 何 使 用 这 些 技术 预测 建筑 物 里 事件 发 
生 的 概率 ， 以 及 体育 场 周边 道路 的 交通 情况 。 


第 4 章 曾 述 无 监督 学 习 算法 , 包括 K-means 聚 类 和 均值 漂移 聚 类 。 我们 将 学 习 如 何 将 这 些 算法 
应 用 于 股票 市 场 数据 和 客户 细 分 。 


第 5 章 介 绍 推荐 引擎 的 相关 算法 。 我 们 将 学 习 如 何 应 用 这 些 算 法 实现 协同 滤波 和 电影 推荐 。 


第 6 章 阐述 与 文本 数据 分 析 相 关 的 技术 ,包括 分 词 、 词 干 提取 、 词 库 模型 等 。 我 们 将 学 习 如 
何 使 用 这 些 技术 进行 文本 情感 分 析 和 主题 建 模 。 




































































第 7 章 介绍 与 语音 数据 分 析 相 关 的 算法 。 我 们 将 学 习 如 何 建 立 语音 识别 系统 。 

第 8 章 介绍 分 析 时 间 序列 和 有 序数 据 的 相关 技术 ， 包 括 隐 马尔 可 夫 模 型 和 条 件 随机 场 。 我 们 
将 学 习 如 何 将 这 些 技术 应 用 到 文本 序列 分 析 和 股市 预测 中 。 

第 9 章 介绍 图 像 内 容 分 析 与 物体 识别 方面 的 算法 。 我 们 将 学 习 如 何 提 取 图 像 特 征 ， 以 及 建立 
物体 识别 系统 。 

第 10 章 介绍 在 图 像 和 视频 中 检测 与 识别 面部 的 相关 技术 ,我 们 将 学 习 使 用 降 维 算法 建立 面部 











一 














ME 











第 11 章 介绍 建立 深度 神经 网 络 所 需 的 算法 。 我 们 将 学 习 如 何 使 用 神经 网 络 建立 光学 文字 识 另 





第 12 章 介绍 机 器 学 习 使 用 的 数据 可 视 化 技术 。 我 们 将 学 习 如 何 创建 不 同类 型 的 图 形 和 图 表 。 


"I 二 EE 
阅读 背景 








Python 2x 和 Python 3.x 的 版 本 之 争 尚 未 平息 ”。 一 方面 , 我 们 坚信 世界 会 向 更 好 的 版 本 不 断 进 
化 , 另 一 方面 ,许多 开发 者 仍然 喜欢 使 用 Python 2.x 的 版 本 。 目 前 许多 操作 系统 仍然 内 置 Python 2.x。 
本 书 的 重点 是 介绍 Python 机 器 学 习 ， 而 非 Python 语言 本 身 。 另 外 ， 考 虑 到 程序 的 兼容 性 ， 书 中 用 
到 了 一 些 尚 未 被 迁移 到 Python 3.x 版 本 的 程序 库 ， 因 此 ， 本 书 依然 选择 Python 2.x 的 版 本 。 我 们 会 
尽 最 大 努力 保持 代码 兼容 各 种 Python 版 本 ， 因 为 这 样 可 以 让 你 轻松 地 理解 代码 ,并 且 很 方便 地 将 
代码 应 用 到 不 同 场景 



































读者 对 象 


本 书 是 为 想 用 机 器 学 习 算 法 开发 应 用 程序 的 Python 程 序 员 准 备 的 , 它 适合 Python 初 学 者 阅读 ， 
不 过 熟悉 Python 编程 方法 对 体验 示例 代码 大 有 神 益 。 
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内 容 组 织 


在 本 书 中 ， 你 会 频繁 地 看 到 下 面 这 些 标题 (准备 工作 、 详 细 步 又、 工作 原理 、 更 多 内 容 、 另 
请 参阅 )。 


为 了 更 好 地 呈现 内 容 ， 本 书 采用 以 下 组 织 形 式 。 








人 @ 2020 年 之 前 应 该 不 会 终结 。 一 一 译 者 注 





























这 部 分 通常 是 对 前 一 部 分 内 容 的 详细 解释 。 








这 部 分 会 补充 介绍 一 些 信息 ， 帮 助 你 更 好 地 理解 前 面 的 内 容 。 





排版 约定 
在 本 书 中 ， 你 会 发 现 一 些 不 同 的 文本 样式 。 这 里 举例 说 明 它们 的 含义 。 


拒 入 代码 、 命 令 、 选 项 、 参 数 、 函 数 、 字 段 、 属 性 、 语 名 等， 用 等 宽 的 代码 字体 显示 :“ 这 
我 们 将 25% 的 数据 用 于 测试 ， 可 以 通过 test_size 人 参数 进行 设置 。” 


代码 块 用 如 下 格式 : 











和 





import numpy as np 
import matplotlib.pyplot as plt 


import utilities 
# Load input data 


input_file = 'data multivar.txt' 
xXx, y = utilities.load data (input_file) 


命令 行 输入 或 输出 用 如 下 格式 : 


$ Python object recognizer.py --input-image imagefile.jpg --model-file 
erf.pkl --codebook-file codebook.pkl 























新 术语 和 重要 文字 将 采用 黑体 字 。 你 在 屏幕 上 看 到 的 内 容 , 包括 对 话 框 或 菜单 里 的 文本 ,都 
将 这 样 显示 :“ 如 果 你 将 数组 改 为 (0，0.2，0，0，0), 那么 Strawberry 部 分 就 会 高 亮 显 示 。” 

















读者 反馈 

我 们 非常 欢迎 读者 的 反馈 。 如 果 你 对 本 书 有 些 想法 ， 有 什么 喜欢 或 是 不 喜欢 的 ,请 反馈 给 我 
们 ， 这 将 有 助 于 我 们 出 版 充分 满足 读者 需求 的 图 书 。 

一 般 性 反馈 请 发 送 电子 邮件 至 feedback@packtpub.com， 并 在 邮件 主题 中 注 明 书 名 。 


如 果 你 在 某 个 领域 有 专长 ， 并 有 意 编 写 一 本 书 或 是 贡献 一 份 力量 ， 请 参考 我 们 的 作者 指南 ， 
地 址 为 http://www.packtpub.com/authors。 












































客户 支持 
你 现在 已 经 是 引 以 为 做 的 Packt 读 者 了 。 为 了 能 让 你 的 购买 物 超 所 值 ， 我 们 还 为 你 准备 了 以 
下 内 容 。 





下 载 示 例 代 码 


你 可 以 用 你 的 账户 从 http:/www.packtpub.com 下 载 所 有 已 购买 Packt 图 书 的 示例 代码 文件 。 如 
果 你 是 从 其 他 途径 购买 的 本 书 ， 可 以 访问 http:/www.packtpub.com/support 并 注册 ， 我 们 将 通过 电 
子 邮 件 把 文件 发 送 给 你 。 


可 以 通过 以 下 步 又 下 载 示 例 代码 文件 : 


(1) 用 你 的 电子 邮件 和 密码 登录 或 注册 我 们 的 网 站 ; 

(2) 将 鼠标 移 到 网 站 上 方 的 客户 支持 (SUPPORT ) 标签 ; 
(3) 单 击 代码 下 载 与 勘误 ( Code Downloads & Errata ) 按钮; 
(4) 在 搜索 框 (Search ) 中 输入 书 名 ; 

(5) 选择 你 要 下 载 代 码 文件 的 书 ; 

(6) 从 下 拉 菜 单 中 选择 你 的 购书 途径 ; 

(7) 单 击 代码 下 载 ( Code Download ) 按钮 。 


你 也 可 以 通过 单 击 Packt 网 站 上 本 书 网 页 上 的 代码 文件 ( Code Files ) 按钮 来 下 载 示 例 代 码 ， 
该 网 页 可 以 通过 在 搜索 框 ( Search ) 中 输入 书 名 获得 。 以 上 操作 的 前 提 是 你 已 经 登录 了 Packt 网 站 。 


下 载 文件 后 ， 请 确保 用 以 下 软件 的 最 新 版 来 解压 文件 : 










































































口 WinRAR /7-Zip for Windows ; 
DD Zipeg / iZip / UnRarX for Mac ; 
口 7-Zip / PeaZip for Linux 。 





本 书 的 代码 包 也 可 以 在 GitHub 上 获得 ， 网 址 是 https://github.com/PacktPublishing/Python- 
Machine-Learning-Cookbook。 男 外 , 我 们 在 https://github.com/PacktPublishing 上 还 有 其 他 书 的 代码 
包 和 视频 ， 请 需要 的 读者 自行 下 载 。 





下 载 本 书 的 彩色 图 片 


我 们 也 为 你 提供 了 一 份 ?DF 文 件 , 里 面包 含 了 书 中 的 截屏 和 图 表 等 彩色 图 片 ， 彩色 图 片 能 帮 
助 你 更 好 地 理解 输出 的 变化 。 下 载 网 址 为 https://www.packtpub.com/sites/default/files/downloads/ 
PythonMachineLearningCookbook ColorImages.pdf。 





勘误 

虽然 我 们 已 尽力 确保 本 书 内 容 正 确 , 但 出 错 仍旧 在 所 难免 。 如 果 你 在 书 中 发 现 错误 ,不管 是 
文本 还 是 代码 , 希望 能 告知 我 们 ， 我们 将 不 胜 感激 。 这 样 做 ,你 可 以 使 其 他 读者 免 受 挫败 ， 也 可 
以 帮助 我 们 改进 本 书 的 后 续 版 本 。 如 果 你 发 现任 何 错误 ， 请 访问 http:/www.packtpub.com/submit- 
errata， 选 择 本 书 , 单 击 勘误 表 提 交 表 单 ( Errata Submission Form ) 的 链接 ， 并 输入 详细 说 明 。" 疾 
误 一 经 核实 ， 你 提交 的 内 容 将 被 接受 ， 此 勘误 会 上 传 到 本 公司 网 站 或 添加 到 现 有 勘误 表 。 


访问 https://www.packtpub.com/books/content/support， 在 搜索 框 中 输入 书 名 ， 可 以 在 勘误 
( Errata ) 部 分 查看 已 经 提交 的 勘误 信息 o 






































盗版 


任何 媒体 都 会 面临 版 权 内 容 在 互联 网 上 的 盗版 问题 ，Packt 也 不 例外 。Packt 非 常 重视 版 权 保 
护 。 如 果 你 发 现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 ,都 请 立即 为 我 们 提供 相关 
网 址 或 网 站 名 称 ， 以 便 我 们 寻求 补救 。 


请 把 可 疑 盗版 材料 的 链接 发 到 copyright@packtpub.com。 
保护 我 们 的 作者 ， 就 是 保护 我 们 继续 为 你 带 来 价值 的 能 力 ， 我 们 将 不 胜 感激 。 








Q@ 中 文 版 勘误 可 以 到 http://www.ituring.com.cn/book/1894 查 看 和 提交 。 一 一 编者 注 











问题 


如 果 你 对 本 书 内 容 存 有 疑问 ， 不 管 是 哪个 方面 的 ， 都 可 以 通过 questions@packtpub.com 联 系 
我 们 ， 我 们 会 尽 最 大 努力 解决 。 








电子 书 
描 如 下 二 维 码 ， 即 可 获得 本 书 
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在 这 一 章 ， 我 们 将 介绍 以 下 主题 : 


口 数据 预 处 理 技术 

口 标记 编码 方法 

口 创建 线性 回归 器 ( linear regressor ) 

口 计算 回归 准确 性 

口 保存 模型 数据 

口 创建 岭 回归 器 (ridge regressor ) 

口 创建 多 项 式 回归 器 (polynomial regressor ) 
口 估算 房屋 价格 

口 计算 特征 的 相对 重要 性 

口 评估 共享 单车 的 需求 分 布 























简介 


如 果 你 熟悉 机 器 学 习 的 基础 知识 , 那么 肯定 知道 什么 
样本 (labeled samples ) 上 建立 机 还 学 习 的 模型 。 例 如 ， 如 果 用 尺寸 、 位 置 等 不 同 参数 建立 一 套 
模型 来 评估 一 栋 房 子 的 价格 , 那么 首先 需要 创建 一 个 数据 库 , 然后 为 参数 打上 标记 。 我 们 需要 告 
诉 算 法 ,什么 样 的 参数 ( 尺寸 、 位 置 ) 对 应 什么 样 的 价格 。 有 了 这 些 带 标记 的 数据 ,算法 就 可 以 
学 会 如 何 根据 输入 的 参数 计算 房价 了 。 











是 监督 学 习 。 监督 学 习 是 指 在 有 标记 的 




















无 监督 学 习 与 刚才 说 的 恰好 相反 , 它 面 对 的 是 没有 标记 的 数据 。 假设 需要 把 一 些 数据 分 成 不 














同 的 组 别 ,但 是 对 分 组 的 条 件 毫 不 知情 ， 于 是 ， 无 监督 学 习 算法 就 会 以 最 合理 的 方式 将 数据 集 分 
成 确定 数量 的 组 别 。 我 们 将 在 后 面 章节 介绍 无 监督 学 习 。 


建立 书 中 的 各 种 模型 时 ， 将 使 用 许多 Python 程序 包 ， 像 NumPy 、SciPy、scikit-learn、 





matplotlib 等 。 如 果 你 使 用 Windows 系 统 ， 推 荐 安装 兼容 SciPy 关 联 程序 包 的 Python 发 行 版 ， 网 址 











为 http://wwwscipyorg/installhtml， 这 些 Python 发 行 版 里 已 经 集成 了 常用 的 程序 包 。 如 果 你 使 用 
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Mac OS X 或 者 Ubuntu 系统 ， 安 装 这 些 程序 包 就 相当 简单 了 。 下 面 列 出 来 程序 包 安 装 和 使 用 文档 





的 链接 : 


口 NumPy: http://docs.scipy.org/doc/numpy-1.10.1/user/install.html 
口 SciPy : http:/www.scipy.org/install.html 

OQ scikit-learn: http://scikit-learn.org/stable/install.html 

D matplotlib: http://matplotlib.org/1.4.2/users/installing.html 


现在 ， 请 确保 你 的 计算 机 已 经 安装 了 所 有 程序 包 。 








1.2 ”数据 预 处 理 技术 


在 真实 世界 中 ， 经 常 需要 处 理 大 量 的 原始 数据 ， 这 些 原 始 数据 是 机 器 学 习 算法 无 法 理解 的 。 


为 了 让 机 器 学 习 算法 理解 原始 数据 ， 需 要 对 数据 进行 预 处 理 。 


1.2.1 准备 工作 























来 看 看 Python 是 如 何 对 数据 进行 预 处 理 的 。 首 先 ,用 你 最 喜欢 的 文本 编辑 器 打开 一 个 扩展 名 




















为 .py 的 文件 ， 例 如 preprocessorpy。 然 后 在 文件 里 加 入 下 面 两 行 代码 : 


import numpy as np 
from sklearn import preprocessing 


我 们 只 是 加 入 了 两 个 必要 的 程序 包 。 接 下 来 创建 一 些 样本 数据 ,向 文件 中 添加 下 面 这 行 代码 : 





data 全 nearray hl3y, lsdy Bi, Dd Oy ey By 2 
= 3] 


现在 就 可 以 对 数据 进行 预 处 理 了 。 


1.2.2 ”详细 步骤 
数据 可 以 通过 许多 技术 进行 预 处理 ， 接 下 来 将 介绍 一 些 最 常用 的 预 处 理 技术 。 
1. 均值 移 除 (Mean removal) 


























通常 我 们 会 把 每 个 特征 的 平均 值 移 除 ， 以 保证 特征 均值 为 0( 即 标准 化 处 理 )。 这 样 做 可 以 消 











除 特征 彼此 间 的 偏差 (bias )。 将 下 面 几 行 代码 加 入 之 前 打开 的 Python 文件 中 : 


data_standardized = Preptrocessing.sScale(dqata) 
print "\nMean =", data_standardized.mean (axis=0) 
print "Stqd deviation =", data_ standardized.stdqd(axis=0) 
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现在 来 运行 代码 。 打 开 命 令 行 工具 ， 然 后 输入 以 下 命令 ; 
$ python preprocessor.py 
命令 行 工 具 中 将 显示 以 下 结果 : 


Mean = [ 5.55111512e-17 -1.11022302e-16 -7.40148683e-17 -7.40148683e-17] 
Std deviation = [ 1. 1. 1. 1.] 


你 会 发 现 特征 均值 几乎 是 0， 而 且 标 准 差 为 1。 

2. 范围 缩放 (Scaling) 

数据 点 中 每 个 特征 的 数值 范围 可 能 变化 很 大 , 因此 , 有 时 将 特征 的 数值 范围 缩放 到 合理 的 大 
小 是 非常 重要 的 。 在 Python 文件 中 加 入 下 面 几 行 代 码 ， 然 后 运行 程序 : 

data_scaler preprocessing.MinMaxScaler (feature range=(0, 1)) 


data_scaled data_scaler.fit_ transform(data) 
print "\nMin max scaled data =", data_scaled 


范围 缩放 之 后 ， 所 有 数据 点 的 特征 数值 都 位 于 指定 的 数值 范围 内 。 输 出 结果 如 下 所 示 : 


Min max scaled data: 


















































| er 0. 1. 0. ] 
[ 0. 1. 0.41025641 1. ] 
[ 0.33333333 0.87272727 0 . 0.14666667]] 


3. 归 一 化 ‘Normalization) 

数据 归 一 化 用 于 需要 对 特征 向 量 的 值 进行 调整 时 , 以 保证 每 个 特征 向 量 的 值 都 缩放 到 相同 的 
数值 范围 。 机 器 学 习 中 最 常用 的 归 一 化 形式 就 是 将 特征 向 量 调整 为 L1 范 数 , 使 特征 向 量 的 数值 之 
和 为 1。 增 加 下 面 两 行 代码 到 前 面 的 Python 文 件 中 : 


data_normalized = preprocessing.normalize(data, norm='11') 























print "\nLl1 normalized data =", data normalized 

执行 Python 文 件 ， 就 可 以 看 到 下 面 的 结果 : 

L1 normalized data: 

[[ 0.25210084 -0.12605042 0.16806723 -0.45378151] 
[ 0. 0.625 -0.046875 0.328125 ] 
[ 0.0952381 0.31428571 -0.18095238 -0.40952381]] 


这 个 方法 经 常用 于 确保 数据 点 没有 因为 特征 的 基本 性 质 而 产生 较 大 差异 , 即 确保 数据 处 于 同 
一 数量 级 ， 提 高 不 同 特征 数据 的 可 比 性 。 


4. 二 值 化 (Binarization) 


二 值 化 用 于 将 数值 特征 向 量 转换 为 布尔 类 型 向 量 。 增 加 下 面 两 行 代码 到 前 面 的 Python 文件 中 


data_binarized = preprocessing.Binarizer (threshold=1.4) .transform(data) 
print "\nBinarized data =", data binarized 
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再 次 执行 Python 文 件 ， 就 可 以 看 到 下 面 的 结果 : 


Binarized data: 











[[ Ls 0 . Ls 0.] 
[ 0. Ls 0 . 1.] 
[ 0. 1. 0 . 0.]] 


如 果 事 先 已 经 对 数据 有 了 一 定 的 了 解 ， 就 会 发 现 使 用 这 个 技术 的 好 处 了 。 
5. 独 热 编码 


通常 , 需要 处 理 的 数值 都 是 稀 玖 地 、 散 乱 地 分 布 在 空间 中 ,然而 ,我 们 并 不 需要 存储 这 些 大 
数值 , 这 时 就 需要 使 用 独 热 编码 ( One-Hot Encoding )。 可 以 把 独 热 编码 看 作 是 一 种 收 紧 ( tighten ) 
特征 向 量 的 工具 。 它 把 特征 向 量 的 每 个 特征 与 特征 的 非 重复 总 数 相 对 应 ， 通 过 one-of-k 的 形式 对 
每 个 值 进行 编码 。 特 征 向 量 的 每 个 特征 值 都 按照 这 种 方式 编码 ， 这 样 可 以 更 加 有 效 地 表示 空间 。 
例如 , 我们 需要 处 理 4 维 向 量 空间 ， 当 给 一 个 特性 向 量 的 第 n 个 特征 进行 编码 时 ,编码 器 会 遍历 
个 特征 向 量 的 第 n 个 特征 , 然后 进行 非 重 复 计数 。 如 果 非 重复 计数 的 值 是 K, 那么 就 把 这 个 特征 转 
换 为 只 有 一 个 值 是 1 其 他 值 都 是 0 的 K 维 向 量 。 增 加 下 面 几 行 代码 到 前 面 的 Python 文 件 中 : 


encoder = preprocessing.OneHotEncoder () 

























































































ecodel. Edt (Os 2 vhs Lo) LL SD SI Lo By DD) i 1.) 
encoded_ vector = encoder.transform([[2, 3, 5, 3]]).toarray() 

print "\nEncoded vector =", encoded vector 

结果 如 下 所 示 : 


Encoded vector: 
[[ 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]] 


在 上 面 的 示例 中 ， 观 察 一 下 每 个 特征 向 量 的 第 三 个 特征 ， 分 别 是 1、5、2 、4 这 4 个 不 重复 的 
值 ， 也 就 是 说 独 热 编码 向 量 的 长 度 是 4。 如 果 你 需要 对 5 进行 编码 ,那么 向 量 就 是 [0，1，0,， 0]。 
向 量 中 只 有 一 个 值 是 1。 第 二 个 元 素 是 1， 对 应 的 值 是 5。 
























































1.3 ”标记 编码 方法 


在 监督 学 习 中 , 经常 需要 处 理 各 种 各 样 的 标记 。 这 些 标记 可 能 是 数字 ,也 可 能 是 单词 。 如 果 
标记 是 数字 , 那么 算法 可 以 直接 使 用 它们 , 但 是 , 许多 情况 下 ,标记 都 需要 以 人 们 可 理解 的 形式 
存在 ， 因 此 ， 人 们 通常 会 用 单词 标记 训练 数据 集 。 标 记 编 码 就 是 要 把 单词 标记 转换 成 数值 形式 ， 
让 算法 懂得 如 何 操作 标记 。 接 下 来 看 看 如 何 标记 编码 。 















































详细 步骤 
(1) 新 建 一 个 Python 文件 ， 然 后 导 和 人 preprocessing 程 序 包 ; 


from sklearn import preprocessing 


1.3 标记 编码 方法 





(2) 这 个 程序 包 包含 许多 数据 预 处 理 需要 的 函数 。 定 义 一 个 标记 编码 器 (label encoder )， 代 ww 
码 如 下 所 示 ; 


label_encoder = preprocessing.LabelEncoder () 

(3) label_encoder 对 象 知道 如 何 理 解 单词 标记 。 接 下 来 创建 一 些 标记 : 
input_classes = ['audi', 'ford', 'audi', 'toyota', 'ford', 'bmw'] 
(4) 现在 就 可 以 为 这 些 标 记 编 码 了 : 


label_encoder.fit (input_classes) 

print "\nClass mapping:" 

for i, item in enumerate(label_ encoder.classes, ): 
print item, '-->', i 


(5) 运行 代码 ， 命 令 行 工具 中 显示 下 面 的 结果 ; 


Class mapping: 
audi --> 0 
bmw --> 1 
ford --> 2 
toyota --> 3 


(6) 就 像 前 面 结果 显示 的 那样 , 单词 被 转换 成 从 0 开始 的 索引 值 。 现在 , 如 果 你 遇 到 一 组 标记 ， 
就 可 以 非常 轻松 地 转换 它们 了 ， 如 下 所 示 : 

labels = ['toyota', 'ford', 'audi'] 

encoded_labels = label_encoder.transform(labels) 


print "\nLabels =", labels 
print "Encoded labels =", list (encoded labels) 


命令 行 工具 中 将 显示 下 面 的 结 


Labels = ['toyota', 'ford', 'audi'] 
Encoded labels = [3, 2, 0] 


(7) 这 种 方式 比 纯 手工 进行 单词 与 数字 的 编码 要 简单 许多 。 还 可 以 通过 数字 反 转 回 单词 的 功 
能 检查 结果 的 正确 性 : 


encoded_labels [2 Ly 033: :4] 
decoded_labels = label_encoder.inverse transform(encoded_ labels) 




















print "\nEncoded labels =", encoded labels 
print "Decoded labels =", list (decoded labels) 
结果 如 下 所 示 : 


Encoded labels 
Decoded labels 


可 以 看 到 ,映射 结果 是 完全 正确 的 。 


[2, 1, 0, 3, 1] 
['ford', 'bmw', 'audi', 'toyota', 'bmw'] 
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1.4 创建 线性 回归 器 





回归 是 估计 输入 数据 与 连续 值 输 出 数据 之 间 关 系 的 过 程 。 数 据 通常 





是 实数 形式 的 , 我 们 的 目 


标 是 估计 满足 输入 到 输出 映射 关系 的 基本 函数 。 让 我 们 从 一 个 简单 的 示例 开始 。 考 虑 下 面 的 输入 


与 输出 映射 关系 : 


上 => 过 
3 一 0 
4.3 一 8.0 
7.1 一 14.2 





如 果 要 你 估计 输入 与 输出 的 关联 关系 , 你 可 以 通过 模式 匹配 轻松 地 找到 结果 。 我们 发 现 输出 
结果 一 直 是 输入 数据 的 两 倍 ， 因 此 输入 与 输出 的 转换 公式 就 是 这 样 : 








fx) = 2x 





这 是 体现 输入 值 与 输出 值 关联 关系 的 一 个 简单 函数 。 但 是 , 在 真实 世界 中 i 




















单 ， 输 入 与 输出 的 映射 关系 函数 并 不 是 一 眼 就 可 以 看 出 来 的 。 


1.4.1 准备 工作 


线性 回归 用 输入 变量 
线性 回归 。 














4 线性 组 合 来 估计 基本 函数 。 前 面 的 示例 就 是 一 种 单 


现在 考虑 如 图 1-1 所 示 的 情况 。 


























图 1-1 








输入 单 输出 变量 的 
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线性 回归 的 目标 是 提取 输入 变量 与 输出 变量 的 关联 线性 模型 , 这 就 要 求实 际 输出 与 线性 方程 
预测 的 输出 的 残 差 平 方 和 ( sum ofsquares of differences ) 最 小 化 。 这 种 方法 被 称 为 普通 最 小 二 乘 
法 ( Ordinary Least Squares，OLS )。 


你 可 能 觉得 用 一 条 曲线 对 这 些 点 进行 拟 合 效果 会 更 好 , 但 是 线性 回归 不 允许 这 样 做 。 线 性 回 
归 的 主要 优点 就 是 方程 简单 。 如 果 你 想 用 非 线 性 回归 ， 可 能 会 得 到 更 准确 的 模型 , 但 是 拟 合 速 度 
会 慢 很 多 。 线性 回归 模型 就 像 前 面 那 张 图 里 显示 的 ， 用 一 条 直线 近似 数据 点 的 趋势 。 接 下 来 看 看 
如 何 用 Python 建立 线性 回归 模型 。 
























































1.4.2 ”详细 步骤 


假设 你 已 经 创建 了 数据 文件 data_singlevartxt, 文件 里 用 逗号 分 隔 符 分 割 字段 , 第 一 个 字段 是 
输入 值 ， 第 二 个 字段 是 与 逗号 前 面 的 输入 值 相对 应 的 输出 值 。 你 可 以 用 这 个 文件 作为 输入 参数 。 


(1) 创建 一 个 Python 文件 regressorpy， 然 后 在 里 面 增加 下 面 几 行 代码 


import sys 























import numpy as np 

filename = sys.argv[1] 

xX = [] 

y = [] 

with open(filename, 'r') as f: 

for line in f.readqlines() : 

| 
xX.append (xt) 
y.append (yt) 


也 输入 数据 加 载 到 变量 x 和 y， 其 中 x 是 数据 ，y 是 标记 。 在 代码 的 for 循 环 体 中 ,我 们 解析 每 
行 数据 ， 用 去 号 分 割 字段 。 然 后 ， 把 字段 转化 为 浮 点 数 ， 并 分 别 保存 到 变量 x 和 y 中 。 

(2) 建立 机 器 学 习 模型 时 ， 需 要 用 一 种 方法 来 验证 模型 ， 检 查 模 型 是 否 达 到 一 定 的 满意 度 
( satisfactory level )。 为 了 实现 这 个 方法 ， 把 数据 分 成 两 组 : 训练 数据 集 (training dataset ) 与 测试 
数据 集 (testing dataset )。 训 练 数据 集 用 来 建立 模型 ， 测 试 数据 集 用 来 验证 模型 对 未 知 数据 的 学 
习 效 果 。 因 此 ， 先 把 数据 分 成 训练 数据 集 与 测试 数据 集 : 


























or 









































num training = int(0.8 * len (Xx)) 
num test = len(X) - num training 
# 训练 数据 


XxX_ train = np.array (X[:num training]) .reshape( (num training,1)) 
y_train = np.array (y[:num training]) 


# 测试 数据 
X_test = np.array (X[num training:]).reshape( (num test,1)) 
y_test = np.array (y [num training:]) 


这 里 用 80% 的 数据 作为 训练 数据 集 ， 其 余 20% 的 数据 作为 测试 数据 集 。 
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(3) 现在 已 经 准备 好 训练 模型 。 接 下 来 创建 一 个 回归 器 对 象 ， 代 码 如 下 所 示 : 


from sklearn import linear_model 


# 创建 线性 回归 对 象 


linear_regressor = linear model.LinearRegression() 


# 用 训练 数据 集训 练 模型 

Jinear_regressor.fit (XxX train, y_train) 

(4) 我 们 利用 训练 数据 集训 练 了 线性 回归 器 。 向 fit 方 法 提供 输入 数据 即 可 训练 模型 。 用 下 面 
的 代码 看 看 它 如 何 拟 合 : 


import matplotlib.pyplot as plt 


y_train pred = linear_ regressor.predict (X_ train) 
plt.figure() 

plt.scatter(x train, y_train, color='green') 
plt.plot (XxX _ train, y_train pred, color='black', linewidth=4) 
plt.title('Training data') 

plt.show!() 


(5) 在 命令 行 工具 中 执行 如 下 命令 : 
$ python regressor.py data singlevar.txt 


就 会 看 到 如 图 1-2 所 示 的 线性 回归 。 
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(6) 在 前 面 的 代码 中 ， 我 们 用 训练 的 模型 预测 了 训练 数据 的 输出 结果 ， 但 这 并 不 能 说 明 模 型 
对 未 知 的 数据 也 适用 , 因为 我 们 只 是 在 训练 数据 上 运行 模型 。 这 只 能 体现 模型 对 训练 数据 的 拟 合 
效果 。 从 图 1-2 中 可 以 看 到 ， 模 型 训练 的 效果 很 好 。 

(7) 接 下 来 用 模型 对 测试 数据 集 进行 预测 ， 然 后 画 出 来 看 看 ， 代 码 如 下 所 示 : 

y_test_pred = linear_ regressor.predict (X_test) 

plt.scatter(X test, y_test, color='green') 

plt.plot (X test, y_test pred, color='black', linewidth=4) 


plt.title('Test data') 
plt.show!() 


运行 代码 ， 可 以 看 到 如 图 1-3 所 示 的 线性 回归 。 





@e@e@ Figure 1 
























































1.5 计算 回归 准确 性 


现在 已 经 建立 了 回归 器 , 接 下 来 最 重要 的 就 是 如 何 评价 回归 器 的 拟 合 效 果 。 在 模型 评价 的 相 
关内 容 中 ， 用 误差 ( error ) 表示 实际 值 与 模型 预测 值 之 间 的 差 值 。 








1.5.1 准备 工作 
下 面 快 速 了 解 几 个 衡量 回归 器 拟 合 效果 的 重要 指标 ( metric )。 回 归 器 可 以 用 许多 不 同 的 指标 
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进行 衡量 ， 部 分 指标 如 下 所 示 。 


1.5. 


输入 




















口 平均 绝对 误差 (mean absolute error) : 这 是 给 定数 据 集 的 所 有 数据 点 的 绝对 误差 平均 

值 。 

口 均 方 误差 (mean squared error) : 这 是 给 定数 据 集 的 所 有 数据 点 的 误差 的 平方 的 平均 值 。 

这 是 最 流行 的 指标 之 一 。 

口 中 位 数 绝对 误差 (median absolute error) : 这 是 给 定数 据 集 的 所 有 数据 点 的 误差 的 中 位 
数 。 这 个 指标 的 主要 优点 是 可 以 消除 异常 值 (outlier ) 的 干扰 。 测 试 数据 集中 的 单个 坏 点 
不 会 影响 整个 误差 指标 ， 均 值 误 差 指 标 会 受到 异常 点 的 影响 。 

口 解释 方差 分 (explained variance score) : 这 个 分 数 用 于 衡量 我 们 的 模型 对 数据 集 波动 

的 解释 能 力 。 如 果 得 分 1.0 分 ， 那么 表明 我 们 的 模型 是 完美 的 。 

口 R 方 得 分 (R2 score) : 这 个 指标 读 作 “R 方 "， 是 指 确定 性 相关 系数 ， 用 于 衡量 模型 对 未 

知 样本 预测 的 效果 。 最 好 的 得 分 是 1.0， 值 也 可 以 是 负数 。 






































2 详细 步骤 


scikit-leam 里 面 有 一 个 模块 ， 提 供 了 计算 所 有 指标 的 功能 。 重 新 打开 一 个 Python 文件 ， 然 后 











以 下 代码 : 

import sklearn.metrics as sm 

print "Mean absolute error =", round(sm.mean absolute_ error(y_test, y_test_pred), 2) 
print "Mean squared error =", round(sm.mean _ squared error(y_test, y_ test_pred), 2) 
print "Median absolute error =", round(sm.median absolute_error (y_ test, y_test_pred), 
2) 

print "Explained variance Score =", round(sm.explained variance_ scorel(ly_test, 
y_test_pred), 2) 

print "R2 Score =", round(sm.r2_scorel(y_test, y_test_ pred), 2) 




















每 个 指标 都 描述 得 面面俱到 是 非常 乏味 的 , 因此 只 选择 一 两 个 指标 来 评估 我 们 的 模型 。 通常 














的 做 法 是 尽量 保证 均 方 误 差 最 低 ， 而 且 解释 方差 分 最 高 。 


1.6 


就 可 


保存 模型 数据 


模型 训练 结束 之 后 ， 如 果 能 够 把 模型 保存 成 文件 , 那么 下 次 再 使 用 的 时 候 ， 只 要 简单 地 加 载 
以 了 。 





详细 步骤 


用 程序 保存 模型 的 具体 操作 步骤 如 下 。 
(1) 在 Python 文件 regressorpy 中 加 入 以 下 代码 : 








import cPickle as pickle 





output_modqel file = 'saved model .pkl' 
with open(output_ model_file, 'w') as f: 
pickle.dump (linear_regressor, f) 


(2) 回归 模型 会 保存 在 saved modelpkl 文 件 中 。 下 面 看 看 如 何 加 载 并 使 用 它 ， 代 码 如 下 所 示 : 


with open(output_modqel_file，'r') as f: 
model_linregr = pickle.load(f) 





y_test_pred new = model_ linregr.predict (x_test) 
Print "\nNew mean absolute error =", round(sm.mean absolute_ errorl(y_test, 


y_test_pred_ new), 2) 
(3) 这 里 只 是 把 回归 模型 从 Pickle 文 件 加 载 到 mogdel_1linregr 变 量 中 。 你 可 以 将 打印 结果 与 
前 面 的 结果 进行 对 比 ， 确 认 模 型 与 之 前 的 一 样 。 




















1.7 创建 岭 回 归 器 

线性 回归 的 主要 问题 是 对 异常 值 敏感 。 在 真实 世界 的 数据 收集 过 程 中 , 经 常会 遇 到 错误 的 度 
量 结果 。 而 线性 回归 使 用 的 普通 最 小 二 乘法 ,其 目标 是 使 平方 误差 最 小 化 。 这 时 ， 由 于 异常 值 误 
差 的 绝对 值 很 大 ， 因 此 会 引起 问题 ， 从 而 破坏 整个 模型 。 











1.7.1 准备 工作 
先 看 图 1-4。 


























12 第 1 章 ”监督 学 5 


必 





右 下 角 的 两 个 数据 点 明显 是 异常 值 , 但 是 这 个 模型 需要 拟 合 所 有 的 数据 点 , 因此 导致 整个 模 
型 都 错 了 。 仅 赁 直觉 观察 ， 我 们 就 会 觉得 如 图 1-5 的 拟 合 结果 更 好 。 





























图 1-5 

普通 最 小 二 乘法 在 建 模 时 会 考虑 每 个 数据 点 的 影响 ， 因 此 ， 最 终 模型 就 会 像 图 1-4 显 示 的 直 
线 那样 。 显 然 ,我 们 发 现 这 个 模型 不 是 最 优 的 。 为 了 避免 这 个 问题 ,我 们 引入 正则 化 项 的 系数 作 
为 闷 值 来 消除 异常 值 的 影响 。 这 个 方法 被 称 为 岭 回 归 。 




















1.7.2 ”详细 步骤 
接 下 来 看 看 如 何 用 Python 建立 岭 回归 器 。 


(1) 你 可 以 从 data_ multi_variable.txt 文 件 中 加 载 数据 。 这 个 文件 的 每 一 行 都 包含 多 个 数值 。 除 
了 最 后 一 个 数值 外 ， 前 面 的 所 有 数值 构成 输入 特征 向 量 。 


(2) 把 下 面 的 代码 加 入 regressorpy 文 件 中 。 我 们 用 一 些 参 数 初始 化 岭 回 归 需 : 


ridge_ regressor = linear model.Ridge(alpha=0.01, fit_ intercept=True, 
max_iter=10000) 


(3) alpha 参 数控 制 回归 器 的 复杂 程度 。 当 alpha 趋 于 0 时 ， 怜 回归 器 就 是 用 普通 最 小 二 乘法 
的 线性 回归 器 。 因 此 ， 如 果 你 希望 模型 对 异常 值 不 那么 敏感 ， 就 需要 设置 一 个 较 大 的 alpha 值 。 
这 里 把 alpha 值 设置 为 0.01。 


(4) 下 面 让 我 们 来 训练 岭 回归 器 。 
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zidge_regressor .fit(X train, y_train) 
y_test_pred_ ridge = ridge regressor.predict (xXx_test) 
print "Mean absolute error =", round(sm.mean absolute_ error 
(yYy_ test, y_test_pred ridge), 2) 
print "Mean squared error =", roundl(sm.mean _ squared error 
(yYy_test, y_test_pred ridge), 2) 
print "Median absolute error =", round(sm.median absolute_error 
(y_ test, y_test_pred ridge), 2) 
print "Explain variance Score =", round(sm.explained variance_ Score 
(yYy_test, y_test_pred ridge), 2) 
print "R2 Score =", round(sm.r2_scorel(y_test, y_test_ pred ridge), 2) 








运行 代码 检查 误差 指标 。 可 以 用 同样 的 数据 建立 一 个 线性 回归 器 , 并 与 岭 回归 器 的 结果 进行 
比较 ， 看 看 把 正则 化 引入 回归 模型 之 后 的 效果 如 何 。 





1.8 创建 多 项 式 回 归顺 


线性 回归 模型 有 一 个 主要 的 局 限 性 , 那 就 是 它 只 能 把 输入 数据 拟 合成 直线 ,而 多 项 式 回 归 模 
型 通过 拟 合 多 项 式 方程 来 克服 这 类 问题 ， 从 而 提高 模型 的 准确 性 。 








1.8.1 准备 工作 
先 看 图 1-6。 
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从 图 1-6 中 可 以 看 到 ， 数 据点 本 身 的 模式 中 带 有 自然 的 曲线 ， 而 线性 模型 是 不 能 捕捉 到 这 一 
点 的 。 再 来 看 看 多 项 式 模型 的 效果 ， 如 图 1-7 所 示 。 















































图 1-7 


图 1-7 中 的 虚线 表示 线性 回归 模型 ， 实 线 表 示 多 项 式 回归 模型 。 这 个 模型 的 曲率 是 由 多 项 式 
的 次 数 决定 的 。 随 着 模型 曲率 的 增加 ， 模 型 变 得 更 准确 。 但 是 ,增加 曲率 的 同时 也 增加 了 模型 的 
复杂 性 ,因此 拟 合 速度 会 变 慢 。 当 我 们 对 模型 的 准确 性 的 理想 追求 与 计算 能 力 限 制 的 残酷 现实 发 
生 冲 突 时 ， 就 需要 综合 考虑 了 。 




















1.8.2 ”详细 步骤 
(D 将 下 面 的 代码 加 入 Python 文件 regressorpy 中 : 
from sklearn.preprocessing import PolynomialFeatures 


polynomial = PolynomialFeatures (degree=3) 


(2) 上 一 行将 曲线 的 多 项 式 的 次 数 的 初始 值 设置 为 3。 下 面 用 数据 点 来 计算 多 项 式 的 参数 : 





X_train transformed = polynomial.fit _ transform(X train) 
其 中 ，x_train_transformed 表 示 多 项 式 形式 的 输入 ， 与 线性 回归 模型 是 一 样 大 的 。 
(3) 接 下 来 用 文件 中 的 第 一 个 数据 点 来 检查 多 项 式 模型 是 否 能 够 准确 预测 : 





























1.9 估算 房屋 价格 15 


datapoLrnt. =, {03957278% 7 二 |] 
poly_datapoint = polynomial.fit transform(datapoint) 


poly_linear model = linear model .LinearRegression\() 
poly_linear model.fit (x train transformed, y_train) 

print "\nLinear regression:", linear_ regressor.predict (datapoint) [0] 

print "\nPolynomial regression:", poly_linear model.predict (poly_datapoint)[0] 


多 项 式 回归 模型 计算 变量 数据 点 的 值 恰好 就 是 输入 数据 文件 中 的 第 一 行 数据 值 。 再 用 线性 回 
归 模 型 测试 一 下 ， 唯 一 的 差别 就 是 展示 数据 的 形式 。 运 行 代码 ， 可 以 看 到 下 面 的 结 















































Linear regression: -11.0587294983 
Polynomial regression: -10.9480782122 


可 以 发 现 ,多 项 式 回 归 模 型 的 预测 值 更 接近 实际 的 输出 值 。 如 果 想 要 数据 更 接近 实际 输出 值 ， 
就 需要 增加 多 项 式 的 次 数 。 

(4) 将 多 项 式 的 次 数 加 到 10 看 看 结 

polynomial = PolynomialFeatures (degree=10) 

可 以 看 到 下 面 的 结果 : 

Polynomial regression: -8.20472183853 


现在 ,你 可 以 发 现 预 测 值 与 实际 的 输出 值 非常 地 接近 。 








1.9 估算 房屋 价格 


是 时 候 用 所 学 的 知识 来 解决 真实 世界 的 问题 了 。 让 我 们 用 这 些 原 理 来 估算 房屋 价格 。 房 屋 估 
价 是 理解 回归 分 析 最 经 典 的 案例 之 一 , 通常 是 一 个 不 错 的 切入 点 。 它 符合 人 们 的 直觉 , 而 且 与 人 
们 的 生活 息息相关 , 因此 在 用 机 融 学 习 处 理 复杂 事情 之 前 , 通过 房屋 估价 可 以 更 轻松 地 理解 相关 
概念 。 我 们 将 使 用 带 AdaBoost 算 法 的 决策 树 回 归 器 (decision tree regressor ) 来 解决 这 个 问题 。 





























1.9.1 准备 工作 


决策 树 是 一 个 树 状 模型 ,每 个 节点 都 做 出 一 个 决策 ， 从 而 影响 最 终结 果 。 叶 子 节 点 表示 输出 
数值 , 分 支 表示 根据 输入 特征 做 出 的 中 间 决 策 。AdaBoost 算 法 是 指 自 适应 增强 ( adaptive boosting ) 
算法 , 这 是 一 种 利用 其 他 系统 增强 模型 准确 性 的 技术 。 这 种 技术 是 将 不 同 版 本 的 算法 结果 进行 组 
合 , 用 加 权 汇 总 的 方式 获得 最 终结 果 ,， 被 称 为 弱 学 习 器 ( weak learners )。AdaBoost 算 法 在 每 个 阶 
段 获 取 的 信息 都 会 反馈 到 模型 中 , 这 样 学 习 央 就 可 以 在 后 一 阶段 重点 训练 难以 分 类 的 样本 。 这 种 
学 习 方式 可 以 增强 系统 的 准确 性 。 


首先 使 用 AdaBoost 算 法 对 数据 集 进行 回归 拟 合 ， 再 计算 误差 ,然后 根据 误差 评估 结果 , 用 同 
样 的 数据 集 重新 拟 合 。 可 以 把 这 些 看 作 是 回归 咒 的 调 优 过 程 , 直到 达到 预期 的 准确 性 。 假 设 你 拥 
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有 一 个 包含 影响 房价 的 各 种 参数 的 数据 集 , 我 们 的 目标 就 是 估计 这 些 参数 与 房价 的 关系 , 这 样 就 
可 以 根据 未 知 参数 估计 房价 了 。 


1.9.2 ”详细 步骤 
(1) 创建 一 个 新 的 Python 文件 housing.py， 然 后 加 入 下 面 的 代码 ; 


import numpy as np 

from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import AdaBoostRegressor 
from sklearn import datasets 





from sklearn.metrics import mean squared error, explained variance_ score 
from sklearn.utils import shuffle 
import matplotlib.pyplot as plt 


(2) 网 上 有 一 个 标准 房屋 价格 数据 库 , 人 们 经 常用 它 来 研究 机 器 学 习 。 你 可 以 在 https://archive. 
ics.uci.edu/ml/datasets/Housing 下 载 数 据 。 不 过 scikit-learn 提 供 了 数据 接口 ， 可 以 直接 通过 下 面 的 
代码 加 载 数 据 : 


housing_data = datasets.1load boston() 
每 个 数据 点 由 影响 房价 的 13 个 输入 参数 构成 。 你 可 以 用 housing_aqata.data 获 取 输 入 的 数 
据 ， 用 housing_dqata.target 获 取 对 应 的 房屋 价格 。 


(3) 接 下 来 把 输入 数据 与 输出 结果 分 成 不 同 的 变量 。 我 们 可 以 通过 shuffle 函 数 把 数据 的 顺 
序 打 乱 : 


XxX, y = shuffle(housing data.data, housing data.target, random state=7) 


(4) 参数 random_state 用 来 控制 如 何 打 乱 数据 ， 让 我 们 可 以 重新 生成 结果 。 接 下 来 把 数据 
分 成 训练 数据 集 和 测试 数据 集 ， 其 中 80% 的 数据 用 于 训练 ， 剩 余 20% 的 数据 用 于 测试 : 






































num training = int(0.8 * len (x)) 
xX train, y_train = XxX[:num training], y[:num trainingl] 
XxX_ test, y_test = X[num training:], yl[lnum training:] 





(5) 现在 已 经 可 以 拟 合 一 个 决策 树 回 归 模 型 了 。 选 一 个 最 大 深度 为 4 的 决策 树 ， 这 样 可 以 限 币 
决策 树 不 变 成 任意 深度 : 


dt_regressor = DecisionTreeRegressor (max_depth=4) 
dt_regressor.fit (x train, y_train) 


(6) 再 用 带 AdaBoost 算 法 的 决策 树 回归 模型 进行 拟 合 : 


ab_regressor =AdaBoostRegressor (DecisionTreeRegressor (max_depth=4), 
n_estimators=400, random_ state=7) 
ab_regressor.fit (Xx train, y_train) 





1 
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这 样 可 以 帮助 我 们 对 比 训练 效果 ， 看 看 AdaBoost 算 法 对 决策 树 回 归顺 的 训练 效果 有 多 大 





改善 。 


(7) 接 下 来 评价 决策 树 回归 器 的 训练 效果 : 


y_pred_ dt = dt_regressor.predict (x_test) 
mse = mean_ squared_ errorl(ly_test, y_pred dt) 











evs = explained variance scorel(ly_test, y_pred_ dt) 





print "\n#### Decision Tree performance #t###" 


print "Mean squared error =", round(mse, 2) 


print "Explained variance Score =", round(evs, 2) 


(8) 现在 评价 一 下 AdaBoost 算 法 改善 的 效果 : 


y_pred_ab = ab regressor.predict (x_test) 
mse = mean_ squared_ errorl(ly_test, y_pred_ ab) 





evs = explained variance scorel(ly_test, y_pred_ab) 





print "\n#### AdaBoost performance ####" 
print "Mean squared error =", roundl(mse, 2) 


print "Explained variance Score =", round(evs, 2) 





(9) 命令 行 工 具 显 示 的 输出 结果 如 下 所 示 : 
提 提 ## 决策 树 学 习 效 果 提 # 提 # 


Mean squared error = 14.79 
Explained variance score = 0.82 


#### AdaBoost 算 法 改善 效果 #### 


Mean squared error = 7.54 
Explained variance score = 0.91 


前 面 的 结果 表明 ，AdaBoost 算 法 可 以 让 误差 更 省 


1.10 ”计算 特征 的 相对 重要 性 


\， 且 解释 方差 分 更 接近 1。 





所 有 特征 都 同等 重要 吗 ? 在 这 个 案例 中 ， 我 们 用 了 13 个 特征 ， 它 们 对 模型 都 有 贡献 。 但 是 ， 
有 一 个 重要 的 问题 出 现 了 : 如 何 判断 哪个 特征 更 加 重要 ?显然 , 所 有 的 特征 对 结果 的 贡献 是 不 一 





样 的 。 如 果 需 要 忽略 一 些 特征 ， 就 需要 知道 哪些 特征 











F 不 太 重 要 。scikit-learn 里 面 有 这 样 的 功能 。 





详细 步骤 


(1) 画 出 特征 的 相对 重要 性 ， 在 housing.py 文 件 中 加 入 下 面 几 行 代码 : 


plot_feature_ importances (dt_regressor.feature importances_, 
'Decision Tree regressor', housing_ data.feature names) 
plot_feature_ importances (ab_regressor.feature importances_, 





'AdaBoost regressor', housing_data. 


feature_names) 


回归 器 对 象 有 一 个 feature_importances_ 方法 会 告诉 我 们 每 个 特征 的 相对 重要 性 。 
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(2) 接 下 来 需要 定义 plot_feature_importances 来 画 出 条 形 图 : 


def plot_feature_ importances (feature_ importances, title, feature names): 


# 将 重要 性 值 标准 化 


feature_ importances = 100.0 * (feature_ importances / max(feature importances)) 





# 将 得 分 从 高 到 低 排序 
index_sorted = np.flipud(np.argsort (feature_ importances)) 


# 让 X 坐 标 轴 上 的 标签 居中 显示 


pos = np.arange (index_sorted.shape[0]) + 0.5 


# 画 条 形 图 
plt.figure() 

plt.bar(pos, feature importances[index_sorted], align='center') 
plt.xticks (pos, feature names[index_ sorted]) 
plt.ylabel('Relative Importance') 

plt.title(title) 

plt.show!() 





(3) 我 们 从 feature_importances_ 方 法 里 取 值 ， 然 后 把 数值 放大 到 0~100 的 范围 内 。 运 行 


四 








前 面 的 代码 ， 可 以 看 到 两 张 图 ( 不 带 AdaBoost 算 法 与 带 AdaBoost 算 法 两 种 模型 )。 仔 细 观 察 图 1-8 
和 图 1-9， 看 看 能 从 决策 树 回 归顺 中 获得 什么 。 





Figure 1 


Decision Tree regressor 


RM LSTAT DIS NOX RAD CRIM PTRATIO AGE B TAX CHAS INDUS ZN 





图 1-8 














(4) 从 图 1-8 可 以 发 现 ， 不 带 AdaBoost 算 法 的 决策 树 回 归 融 显示 的 最 重要 特征 是 RM。 再 看 看 











带 AdaBoost 算 法 的 决策 树 回 归顺 的 特征 重要 性 排序 条 形 图 ， 如 图 1-9 所 示 。 
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ee Figure 1 


AdaBoost regressor 

















图 1-9 


加 入 AdaBoost 算 法 之 后 ， 房 屋 估 价 模 型 的 最 重要 特征 是 LSTAT。 在 现实 后 活 中 ， 如 果 对 这 个 
数据 集 建立 不 同 的 回归 器 ， 就 会 发 现 最 重要 的 特征 是 LSTAT， 这 足以 体现 AdaBoost 算 法 对 决策 树 
回归 器 训练 效果 的 改善 。 

















1.11 评估 共享 单车 的 需求 分 布 


本 节 将 用 一 种 新 的 回归 方法 解决 共享 单车 的 需求 分 布 问题 。 我 们 采用 随机 森林 回 归 器 
( random forest regressor ) 估计 输出 结果 。 随 机 森林 是 一 个 决策 树 集合 ， 它 基本 上 就 是 用 一 组 
据 集 的 若干 子 集 构 建 的 决策 树 构成 ， 再 用 决策 树 平均 值 改 善 整体 学 习 效 果 。 





















































及 


























1.11.1 准备 工作 


我 们 将 使 用 bike day.csv 文 件 中 的 数据 集 ， 它 可 以 在 https://archive.ics.uci.edu/ml/datasets/ 
Bike+Sharing+Dataset 获取 。 这 份 数 据 集 一 共 16 列 ， 前 两 列 是 序列 号 与 日 期 ， 分 析 的 时 候 可 以 不 
用 ; 最 后 三 列 数据 是 不 同类 型 的 输出 结果 ; 最 后 一 列 是 第 十 四 列 与 第 十 五 列 的 和 ， 因 此 建立 模型 
时 可 以 不 考虑 第 十 四 列 与 第 十 五 列 。 



































1.11.2 ”详细 步骤 
接 下 来 看 看 Python 如 何 解决 这 个 问题 。 如果 你 下 载 了 本 书 源 代 码 , 就 可 以 看 到 bike_sharing.py 
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文件 里 已 经 包含 了 完整 代码 。 这 里 将 介绍 若干 重要 的 部 分 。 
(1) 首先 导入 一 些 新 的 程序 包 ， 如 下 : 





import csyv 
from sklearn.ensemble import RandomForestRegressor 
from housing import plot_feature importances 


(2) 我 们 需要 处 理 CSV 文 件 ， 因 此 加 入 了 csv 程 序 包 来 读 取 CSV 文 件 。 由 于 这 是 一 个 全 新 的 数 
据 集 ， 因 此 需要 自己 定义 一 个 数据 集 加 载 函 数 : 








def load_ dataset (filename): 
file reader = csv.reader (open (filename, 'rb'), delimiter=',') 


XxX, y= [], [] 

for row in file reader: 
X.append (row[2:13]) 
y.append (row[-1]) 


# 提取 特征 名 称 


feature names = np.array (X[0]) 


# 将 第 一 行 特征 名 称 移 除 ， 仅 保留 数值 
return np.array (X[1:]).astype(np.float32), np.array (y[1:]).astype (np.float32), 
feature_names 


在 这 个 函数 中 , 我们 从 CSV 文 件 读 取 了 所 有 数据 。 把 数据 显示 在 图 形 中 时 ,特征 名 称 非常 有 
用 。 把 特征 名 称 数据 从 输入 数值 中 分 离 出 来 ， 并 作为 函数 返回 值 。 


(3) 读 取 数 据 ， 并 打 乱 数据 顺序 ， 让 新 数据 与 原来 文件 中 数据 排列 的 顺序 没有 关联 性 : 




















xX, y, feature names = load dataset (sys.argv[1]) 
XxX, y = shuffle(X, y, random state=7) 


(4) 和 之 前 的 做 法 一 样 ， 需 要 将 数据 分 成 训练 数据 和 测试 数据 。 这 一 次 ， 我 们 将 90% 的 数据 
用 于 训练 ， 剩 余 10% 的 数据 用 于 测试 : 





num training = int(0.9 * len (x)) 
xX_ train, y_train = XxX[:num training], y[:num trainingl] 
XxX test, y_test = X[num training:], yl[lnum training:] 


(5) 下 面 开 始 训练 回归 需 : 


rf_regressor = RandomForestRegressor(n estimators=1000, max_depth=10, 
min_ samples_split=1) 
rf_regressor.fit (Xx train, y_train) 


其 中 ， 参 数 n_estimators 是 指 评估 器 (estimator ) 的 数量 ， 表 示 随 机 森林 需要 使 用 的 决策 
树 数 量 ; 参数 max_qepth 是 指 每 个 决策 树 的 最 大 深度 ; 参数 min_samples_split 是 指 决策 树 分 
裂 一 个 节点 需要 用 到 的 最 小 数据 样本 量 。 
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(6) 评价 随机 森林 回归 器 的 训练 效果 : 和 


y_pred = rf_regressor.predict (Xx_test) 

mse = mean_ squared_ errorl(ly_test, y_pred) 

evs = explained variance scorel(ly_test, y_pred) 

print "\n#### Random Forest regressor performance ####" 
print "Mean squared error =", round(mse, 2) 

print "Explained variance score =", round(evs, 2) 


(7) 由 于 已 经 有 画 出 特征 重要 性 条 形 图 的 函数 plot_feature_importances 了 , 接 下 来 直接 
调用 它 : 


plot_feature_ importances (rf_regressor.feature importances_, 'Random Forest 
regressor', feature_names) 


执行 代码 ， 可 以 看 到 如 图 1-10 所 示 的 图 形 。 





























Oe Figure 1 


Random Forest 『 




















图 1-10 





看 来 温度 ( temp ) 是 影响 自行 车 租赁 的 最 重要 因素 。 


1.11.3 ”更 多 内 容 


形 第 十 四 列 与 第 十 五 列 数据 加 入 数据 集 , 看 看 结果 有 什么 区 别 ,在 新 的 特征 重要 性 条 形 图 中 ， 
除了 这 两 个 特征 外 ， 其 他 特征 都 变 成 了 0。 这 是 由 于 输出 结果 可 以 通过 简单 地 对 第 十 四 列 与 第 十 


s 


五 列 数 据 求 和 得 出 ， 因 此 算法 不 需要 其 他 特征 计算 结果 。 在 数据 集 加 载 函 数 10ad_qataset 中 ， 
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我 们 需要 对 for 循 环 内 的 取 值 范围 稍 作 调 整 : 
X.append (row[2:15]) 


现在 再 画 出 特征 重要 性 条 形 图 ， 可 以 看 到 如 图 1-11 所 示 的 柱 形 图 。 








图 1-11 


与 预想 的 一 样 ， 从 图 中 可 以 看 出 ， 只 有 这 两 个 特征 是 重要 的 ,这 确实 也 符合 常理 ， 因 为 最 终 
结果 仅仅 是 这 两 个 特征 相 加 得 到 的 。 因此, 这 两 个 变量 与 输出 结果 有 直接 的 关系 ,回归 带 也 就 认 
为 它 不 需要 其 他 特征 来 预测 结果 了 。 在 消除 数据 集 元 余 变 量 方面 ， 这 是 非常 有 用 的 工具 。 


还 有 一 份 按 小 时 统计 的 自行 车 共享 数据 bike_hour.csv。 我 们 需要 用 到 第 3~14 列 ， 因 此 先 对 数 
据 集 加载 函 数 10a9_qataset 做 一 点 调整 : 

XxX.append (row[2:14]) 

运行 代码 ， 可 以 看 到 回归 器 的 训练 结果 如 下 : 

##### 随机 森林 学 习 效 果 并 # 提 # 


Mean squared error = 2619.87 
Explained variance score = 0.92 


特征 重要 性 条 形 图 如 图 1-12 所 示 。 
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图 1-12 


图 1-12 中 显示 , 最 重要 的 特征 是 一 天 中 的 不 同时 点 (hr ), 这 也 完全 符合 人 们 的 直觉 ; 其 次 重 
要 的 是 温度 ， 与 我 们 之 前 分 析 的 结果 一 致 。 


创建 分 类 器 








在 这 一 音 ， 我 们 将 介绍 以 下 主题 : 


口 建立 简单 分 类 器 〈 simple classifier ) 
口 建立 逻辑 回归 分 类 器 (logistic regression classifier ) 





口 建立 朴素 贝 叶 


口 提取 性 能 报告 





口 生成 验证 曲线 
口 生成 学 习 曲 线 
口 估算 收入 阶层 





2.1 简介 











口 将 数据 集 分 割 成 训练 集 和 测试 集 
口 用 交叉 验证 ( cross-validation ) 检验 模型 准确 性 
口 混 消 和 矩阵 (confusion matrix ) 可 视 化 


斯 分 类 需 (Naive Bayes classifier ) 





口 根据 汽车 特征 评估 质量 


( validation curves ) 
( learning curves ) 
( income bracket ) 


在 机 咒 学 习 领 域 中 , 分 类 是 指 利用 数据 的 特性 将 其 分 成 若干 类 型 的 过 程 。 分 类 与 上 一 章 介 绍 


的 回归 不 同 ， 回 归 的 输出 结 


然后 对 未 知 数据 进行 分 类 。 


分 类 器 可 以 是 实现 分 类 功能 的 任意 算法 , 最 简单 的 分 类 咒 就 是 简单 的 数学 函数 。 在 真实 世界 
中 ， 分 类 天 可 以 是 非常 复杂 的 形式 。 在 学 习 过 程 中 ， 可 以 看 到 二 元 (binary ) 分 类 器 ， 将 数据 分 


成 两 类 ,也 可 以 看 到 多 元 (multiclass ) 分 类 咒 ， 将 数据 分 成 两 个 以 上 的 类 




















是 实数 。 监 督学 习 分 类 器 就 是 用 带 标记 的 训练 数据 建立 一 个 模型 ， 











型 。 解 决 分 类 问题 的 数 


据 手段 都 倾向 于 解决 二 元 分 类 问题 , 可 以 通过 不 同 的 形式 对 其 进行 扩展 , 进而 解决 多 元 分 类 问题 。 
分 类 器 准确 性 的 估计 是 机 器 学 习 领 域 的 重要 内 容 。 我 们 需要 学 会 如 何 使 用 现 有 的 数据 获取 新 

















的 
主题 。 




















四 路 〈 机 器 学 习 模型 )， 然 后 把 模型 应 用 到 真实 世界 中 。 在 这 一 章 里 ,我 们 将 看 到 许多 类 似 的 





2.2 建立 简单 分 类 器 
本 节 学 习 如 何 用 训练 数据 建立 一 个 简单 分 类 器 。 





2.2.1 详细 步骤 

(使 用 simple_ classifierpy 文 件 作 为 参考 。 假 设 你 已 经 和 上 一 章 一 样 导入 了 numpy 和 
matplot1lib.pyplot 程 序 包 ， 那 么 需要 创建 一 些 样本 数据 : 

X = np.array ([[3,1], [2,5], [1,8], [6,4], [5,2], [3,5], [4,7], [4,-1]]) 

(2) 为 这 些 数据 点 分 配 一 些 标 记 : 

0 Ts 0 Oy A 0 

(3) 因为 只 有 两 个 类 ， 所 以 y 列 表 包 含 0O 和 1。 一 般 情况 下 ， 如 果 你 有 NN 个 类 ， 那 么 y 的 取 值 范 
围 就 是 从 0 到 N-1。 接 下 来 按照 类 型 标记 把 样本 数据 分 成 两 类 : 





























class_0 = np.array ([X[i] for i in range(len(X)) if y[i]==0]) 
class_1 = np.array ([X[i] for i in range(len(X)) if y[i]==1]) 
(4) 为 了 对 数据 有 个 直观 的 认识 ， 把 图 像 画 出 来 ， 如 下 所 示 : 
plt.figure() 


plt.scatter(class_0[:,0], class_0[:,1], color='black', marker='s') 
mt Scatter class LE >0)y lass Tlaylls colors"Bloack",. markers"X) 


这 是 一 个 散 点 图 (scatterplot )， 用 方块 和 又 表示 两 类 数据 。 在 前 面 的 代码 中 ， 参 数 marker 
用 来 表示 数据 点 的 形状 。 用 方块 表示 class_0 的 数据 ,用 又 表示 class_1 的 数据 。 运 行 代码 ， 可 
以 看 到 如 图 2-1 所 示 的 图 形 。 

(5) 在 之 前 的 两 行 代码 中 ， 只 是 用 变量 x 与 y 之 间 的 映射 关系 创建 了 两 个 列表 。 如 果 要 你 直观 
地 展示 数据 点 的 不 同类 型 , 在 两 类 数据 间 画 一 条 分 割 线 , 那么 怎么 实现 呢 ? 你 只 要 用 直线 方程 在 
两 类 数据 之 间 画 一 条 直线 就 可 以 了 。 下 面 看 看 如 何 实现 : 





















































range (10) 
line x 


line x 
line y 


(6) 用 数学 公式 ?= x 创建 一 条 直线 。 代 码 如 下 所 示 : 





plt.figure() 

plt.scatter(class_0[:,0], class_0[:,1], color='black', marker='s') 
Bilt-Seatter (elass 的 让 "Class lll]? Color= blackt, markers") 
plt.plot (line x, line y, color='black', linewidth=3) 

plt.show!() 
























































图 2-1 
(7) 运行 代码 ， 可 以 看 到 如 图 2-2 所 示 的 图 形 。 
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2.2.2 更 多 内 容 


用 以 下 规则 建立 了 一 个 简单 的 分 类 需 : 如 果 输 入 点 (a，b) 的 a 大 于 或 等 于 bp， 那么 它 属 于 
类 型 class_0; 反之 , 它 属 于 class_1。 如 果 对 数据 点 逐个 进行 检查 ， 你 会 发 现 每 个 数 都 是 这 
样 ， 这 样 你 就 建立 了 一 个 可 以 识别 未 知 数据 的 线性 分 类 器 (linear classifier )。 之 所 以 称 其 为 线 
性 分 类 器 ， 是 因为 分 割 线 是 一 条 直线 。 如 果 分 割 线 是 一 条 曲线 ， 就 是 非 线性 分 类 器 ( nonlinear 


classifier )。 


这 样 简单 的 分 类 需 之 所 以 可 行 ,是 因为 数据 点 很 少 , 可 以 直观 地 判断 分 割 线 。 如 果 有 几 千 个 
数据 点 呢 ? 如 何 对 分 类 过 程 进 行 一 般 化 处 理 (generalize ) 呢 ? 下 一 节 将 介绍 这 一 主题 。 
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虽然 这 里 也 出 现 了 上 一 章 介绍 的 回归 这 个 词 , 但 逻辑 回归 其 实 是 一 种 分 类 方法 。 给 定 一 组 数 
据点 , 需要 建立 一 个 可 以 在 类 之 间 绘 制 线性 边界 的 模型 。 逻辑 回 归 就 可 以 对 训练 数据 派生 的 一 组 
方程 进行 求解 来 提取 边界 。 











详细 步骤 
(1) 下 面 看 看 用 Python 如 何 实现 逻辑 回归 。 我 们 使 用 logistic_regression.py 文 件 作为 参考 。 假 设 
已 经 导入 了 需要 使 用 的 程序 包 ， 接 下 来 创建 一 些 带 训 练 标记 的 样本 数据 : 


import numpy as np 
from sklearn import linear_ model 
import matplotlib.pyplot as plt 
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这 里 假设 一 共有 3 个 类 。 
(2) 初始 化 一 个 逻辑 回归 分 类 需 : 
classifier = linear model.LogisticRegression(solver='liblinear', C=100) 


前 面 的 函数 有 一 些 输入 参数 需要 设置 ,但 是 最 重要 的 两 个 参数 是 solver 和 Cc。 参 数 solver 
用 于 设置 求解 系统 方程 的 算法 类 型 ， 参 数 c 表 示 正 则 化 强度 ， 数 值 越 小 ， 表 示 正 则 化 强度 越 高 。 


(3) 接 下 来 训练 分 类 带 : 


classifier.fit(x, y) 

















(4) 画 出 数据 点 和 边界 : 


plot_classifier(classifier, XxX, y) 
需要 定义 如 下 面 图 函数 : 


def plot_ classifier(classifier, XxX, y): 
# 定义 图 形 的 取 值 范围 
x_min, x_max min(x[:, 0]) -= 
y_min, y_max min(x[:, 1]) -= 


预测 值 表示 我 们 在 图 形 中 想 要 使 用 的 数值 范围 , 通常 是 从 最 小 值 到 最 大 值 。 我 们 增加 了 一 些 
余 量 (buffer )， 例 如 上 面 代码 中 的 1.0。 

(3) 为 了 画 出 边界 ， 还 需要 利用 一 组 网 格 (grid ) 数据 求 出 方程 的 值 ， 然 后 把 边界 画 出 来 。 下 
面 继续 定义 网 格 : 


# 设置 网 格 数据 的 步 长 
step_size = 0.01 
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# 定义 网 格 
x_values, y_values = np.meshgrid(np.arange (x_min, x_max, step_size), 
np.arange(y_min, y_max, step_size)) 


变量 x_values 和 y_values 包 含 求 解 方 程 数值 的 网 格 点 。 


(6) 计算 出 分 类 器 对 所 有 数据 点 的 分 类 结 
# 计算 分 类 器 输出 结果 


mesh_output = classifier.predict (np.c_[x_values.ravel(), y_values.ravel()]) 


# 数组 维度 变形 
mesh_output = mesh_ output.reshape (x_values.shape) 


(7) 用 彩色 区 域 画 出 各 个 类 型 的 边界 : 
# 用 彩 图 画 出 分 类 结果 


plt.figure!() 


# 选择 配色 方案 


Dllt.pcolormesh(xX_values，yYy_Vvalues，mesh_output ，cmap=plt.cm.Ggray) 

这 基本 算是 一 个 三 维 画图 器 ， 既 可 以 画 二 维 数据 点 ， 又 可 以 用 色彩 清单 〈color scheme ) 表 
示 不 同 区 域 的 相关 属性 。 你 可 以 在 http://matplotlib.org/examples/color/colormaps_reference.html 找 
到 所 有 的 色彩 清单 。 

(8) 接 下 来 再 把 训练 数据 点 画 在 图 上 : 


plt.scatter (Xx[:, 0], X[:, 1], c=y, Ss=80, edgecolors='black', linewidth=1, 
cmap=plt.cm.Paired) 






































# 设置 图 形 的 取 值 范围 
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plt.xlim(x_values.min(), x_values.max()) 
plt.ylim(y_values.min(), y_values.max()) 


# 设置 X 轴 与 Y 轴 











plt.xticks( (np.arange (int (min (Xx[:, 0])-1), int (max(X[:, 0])+1), 1.0))) 
plt.yticks((np.arange (int (min (Xx[:, 1])-1), int (max(X[:, 1])+1), 1.0))) 
plt.show!() 


其 中 ，plt .scatter 把 数据 点 画 在 二 维 图 上 。x[:，0] 表 示 0 轴 (X 轴 ) 的 坐标 值 ，x[:，1] 
表示 1 轴 (Y 轴 ) 的 坐标 值 。c=y 表 示 颜 色 的 使 用 顺序 。 用 目标 标记 映射 cmap 的 颜色 表 。 我 们 肯定 
希望 不 同 的 标记 使 用 不 同 的 颜色 , 因此 , 用 y 作 为 映射 。 坐标 轴 的 取 值 范围 由 plt .xlim 和 plt .ylim 
确定 。 为 了 标记 坐标 轴 的 数值 ， 需 要 使 用 pl1t .xticks 和 plt .yticks。 在 坐标 轴 上 标 出 坐标 值 ， 
就 可 以 直观 地 看 出 数据 点 的 位 置 。 在 前 面 的 代码 中 , 我 们 希望 坐标 轴 的 最 大 值 与 最 小 值 之 前 的 刻度 
是 单位 刻度 ， 还 希望 这 些 刻度 值 是 整数 ， 因 此 用 int () 函数 对 最 值 取 整 。 


(9) 运行 代码 ， 就 可 以 看 到 如 图 2-3 所 示 的 输出 结 


















































[ @Se@ Figure 1 

















| 全 |@|© 十 |@| 铝 | 同 





图 2-3 


(10) 下 面 看 看 参数 c 对 模型 的 影响 。 参 数 c 表 示 对 分 类 错误 ( misclassification ) 的 惩罚 值 
(penalty )。 如 果 把 参数 c 设 置 为 1 .0， 会 得 到 如 图 2-4 所 示 的 结 
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图 2-4 


(11) 如 果 把 参数 c 设 置 为 10000， 会 得 到 如 图 2-5 所 示 的 结 
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图 2-5 


随 着 参数 c 的 不 断 增 大 ， 分 类 错误 的 惩罚 值 越 高 。 因 此 ， 各 个 类 型 的 边界 更 优 。 
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2.4 建立 朴素 贝 叶 斯 分 类 器 
朴素 贝 叶 斯 分 类 器 是 用 贝 叶 斯 定理 进行 建 模 的 监督 学 习 分 类 器 。 下面 看 看 如 何 建立 一 个 朴素 


贝 叶 斯 分 类 器 。 ul 
详细 步骤 
(1) 我 们 使 用 naive_bayes.py 文 件 作 为 参考 。 首 先导 入 两 个 程序 包 : 


from sklearn.naive bayes import GaussianNB 
from logistic regression import plot_classifier 


(2) 下 载 的 示例 代码 中 有 一 个 data_multivar.txt 文 件 ， 里 面包 含 了 将 要 使 用 的 数据 ， 每 一 行 数 
据 都 是 由 逗号 分 隔 符 分 割 的 数值 。 从 文件 中 加 载 数据 : 


input_file = 'data multivar.txt' 



























































X= [] 
y = [] 
with open(input_file, 'r') as f: 
for line in f.readqlines() : 
data = [float (x) for x in line.split(',')] 
Xx.append(datal[:-1]) 
y.append (data[-1]) 


又 
4 


我 们 已 经 把 输入 数据 和 标记 分 别 加 载 到 变量 x 和 y 中 了 。 
(3) 下 面 建立 一 个 朴素 贝 叶 斯 分 类 器 : 
classifier_ gaussiannb = GaussianNB() 


classifier_ gaussiannb.fit(X，Yy) 
y_pred = classifier gaussiannb.predict (xXx) 


GaussianNB 国 数 指定 了 正 态 分 布 朴素 贝 叶 斯 模型 ( Gaussian Naive Bayes model )。 
(4) 接 下 来 计算 分 类 器 的 准确 性 : 


accuracy = 100.0 * (y == y_pred) .sum() / XxX.shape[0] 
print "Accuracy of the classifier =", round(accuracy, 2), 


(5) 画 出 数据 点 和 边界 : 


np.array (X) 
np.array (y) 
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plot_classifier(classifier _gaussiannb，X，Y) 


可 以 看 到 如 图 2-6 所 示 的 图 形 。 








全 有 局 国 Figure 1 














合 |9@| 十 | 加 | 司 加 


图 2-6 
从 图 2-6 中 可 以 发 现 ， 这 里 的 边界 没有 严格 地 区 分 所 有 数据 点 。 在 前 面 这 个 例子 中 ， 我 们 是 




















对 所 有 的 数据 进行 训练 。 机 器 学 习 的 一 条 最 佳 实践 是 用 没有 重 到 (nonoverlapping ) 的 数据 进行 
训练 和 测试 。 理 想 情况 下 , 需要 一 些 尚 未 使 用 的 数据 进行 测试 ,可 以 方便 准确 地 评估 模型 在 未 知 
数据 上 的 执行 情况 。scikit-learn 有 一 个 方法 可 以 非常 好 地 解决 这 个 问题 , 我 们 将 在 下 一 介绍 它 。 











2.5 ”将 数据 集 分 割 成 训练 集 和 测试 集 
本 节 一 起 来 看 看 如 何 将 数据 合理 地 分 割 成 训练 数据 集 和 测试 数据 集 。 





详细 步骤 
(1) 增加 下 面 的 代码 片段 到 上 一 节 的 Python 文件 中 : 
from sklearn import cross_validation 


XxX _ train, XxX test, y_train, y_test = cross_validation.train test_split (x, y, 
test_size=0.25, random state=5) 


classifier gaussiannb new = GaussianNB() 
classifier gaussiannb new.fit (Xx train, y_train) 


这 里 , 我 们 把 参数 test_size 设 置 成 0.25, 表示 分 配 了 25% 的 数据 给 测试 数据 集 。 剩 下 75% 
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的 数据 将 用 于 训练 数据 集 。 
(2) 用 分 类 器 对 测试 数据 进行 测试 : 
y_test_pred = classifier gaussiannb new.predict (XxX_test) 
(3) 计算 分 类 器 的 准确 性 : 


accuracy = 100.0 * (y_test == y_test pred) .sum() / XxX_ test.shapel[0] 
print "Accuracy of the classifier =", round(accuracy, 2), "%" 


(4) 画 出 测试 数据 的 数据 点 及 其 边界 : 








plot_classifier(classifier gaussiannb new，X test，y test) 


(5) 可 以 看 到 如 图 2-7 所 示 的 图 形 。 
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图 2-7 


2.6 用 交叉 验证 检验 模型 准确 性 


交叉 验证 是 机 器 学 习 的 重要 概念 .在 上 一 节 中 ,我 们 把 数据 分 成 了 训练 数据 集 和 测试 数据 集 。 
然而 , 为 了 能 够 让 模型 更 加 稳定 ,还 需要 用 数据 集 的 不 同 子 集 进行 反复 的 验证 。 如 果 只 是 对 特定 
的 子 集 进行 微调 ， 最 终 可 能 会 过 度 拟 合 (overfitting ) 模型 。 过 度 拟 合 是 指 模型 在 已 知 数据 集 上 
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拟 合 得 超级 好 , 但 是 一 遇 到 未 知 数据 就 挂 了 。 我 们 真正 想 要 的 ,是 让 机 器 学 习 模型 能 够 适用 于 未 
知 数据 。 


2.6.1 准备 工作 


介绍 如 何 实现 交叉 验证 之 前 ， 先 讨论 一 下 性 能 指标 。 当 处 理 机 咒 学 习 模 型 时 ， 通 常 关心 3 个 
指标 : 精度 ( precision )、 召 回 率 (recall ) 和 F1 得 分 (Fl score )。 可 以 用 参数 评分 标准 (parameter 
scoring ) 获得 各 项 指标 的 得 分 。 精 度 是 指 被 分 类 器 正确 分 类 的 样本 数量 占 分 类 器 总 分 类 样本 数量 
的 百分比 〈 分 类 器 分 类 结果 中 ， 有 一 些 样 本 分 错 了 )。 召 回 率 是 指 被 应 正确 分 类 的 样本 数量 占 某 
分 类 总 样本 数量 的 百分比 (有 一 些 样本 属于 某 分 类 ， 但 分 类 器 却 没有 分 出 来 )。 

假设 数据 集 有 100 个 样本 ， 其 中 有 82 个 样本 是 我 们 感 兴趣 的 ， 现 在 想 用 分 类 器 选 出 这 82 个 样 
本 。 最 终 ， 分 类 融 选 出 了 73 个 样本 ， 它 认为 都 是 我 们 感 兴 趣 的 。 在 这 73 个 样本 中 ， 其 实 只 有 65 
个 样本 是 我 们 感 兴趣 的 ， 剩 下 的 8 个 样本 我 们 不 感 兴趣 ， 是 分 类 器 分 错 了 。 可 以 如 下 方法 计算 分 
类 器 的 精度 : 

口 分 类 正确 的 样本 数量 = 65 
口 总 分 类 样本 数量 = 73 
口 精度 = 65 /73 = 89.04% 


召回 率 的 计算 过 程 如 下 : 


口 数据 集中 我 们 感 兴趣 的 样本 数量 = 82 
口 分 类 正确 的 样本 数量 = 65 
口 召回 率 = 65 / 82 = 79.26% 

一 个 给 力 的 机 器 学 习 模型 需要 同时 具备 良好 的 精度 和 召回 率 。 这 两 个 指标 是 二 律 背 反 的 ， 
指标 达到 100%， 那 么 另 一 个 指标 就 会 非常 差 ! 我 们 需要 保持 两 个 指标 能 够 同时 处 于 合理 高 度 。 
了 量化 两 个 指标 的 均衡 性 ,引入 了 F1 得 分 指标 ， 是 精度 和 召回 率 的 合成 指标 ,实际 上 是 精度 和 
回 率 的 调和 均值 ( harmonic mean ): 

Fl 得 分 =2 x 精度 x 召回 率 / (精度 + 召回 率 ) 

上 面 示例 中 Fl 得 分 的 计算 过 程 如 下 : 


F1 得 分 =2 x 0.89 x 0.79 / (0.89 + 0.79) = 0.8370 
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2.6.2 ”详细 步骤 
(1) 下 面 看 看 如 何 实现 交叉 验证 ， 并 提取 性 能 指标 。 首 先 计算 精度 : 
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num validations = 5 

accuracy = cross_validation.cross_val_ score(classifier _ gaussiannb, 
xX, y,scoring='accuracy', cv=num validations) 

print "Accuracy: " + str(round(100*accuracy.mean(), 2)) + "%" 


(2) 用 前 面 的 方程 分 别 计算 精度 、 召 回 率 和 F1 得 分 : 


fli = cross_validation.cross_val_ score(classifier gaussiannb, 
XxX, y, scoring='f1 weighted', cv=num validations) 
print "FE1: " + str(round(100*f1i.mean(), 2)) + "%" 





precision = cross_validation.cross_val_ score(classifier_ gaussiannb, 
XxX, y, scoring='precision weighted', cv=num validations) 


print "Precision: " + str(round(100*precision.mean(), 2)) + "和 多" 
recall = cross_validation.cross_ val_score(classifier gaussiannb, 

XxX, y, scoring='recall weighted', cv=num validations) 
print "Recall: " + str(round(100*recall.mean(), 2)) + "和 多" 


2.7 混淆 和 矩阵 可 视 化 


混 痛 和 矩阵 〈confusion matrix ) 是 理解 分 类 模型 性 能 的 数据 表 ， 它 有 助 于 我 们 理解 如 何 把 测试 
数据 分 成 不 同 的 类 。 当 想 对 算法 进行 调 优 时 , 就 需要 在 对 算法 做 出 改变 之 前 了 解数 据 的 错误 分 类 
情况 。 有 些 分 类 效果 比 其 他 分 类 效果 更 差 , 混淆 矩阵 可 以 帮助 我 们 理解 这 些 问题 。 先 看 看 如 图 2-8 
所 示 的 混淆 和 矩阵。 
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图 2-8 
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在 图 2-8 中 ， 我 们 可 以 看 出 不 同类 型 的 分 类 数据 。 理 想 情 况 下 ， 我 们 希望 矩阵 非 对 角 线 元 素 
都 是 0， 这 是 最 完美 的 分 类 结果 。 先 看 看 class 0， 一 共 52 个 样本 属于 class 0。 如 果 对 第 一 行 数 
据 求 和 ， 总数 就 是 52。 但 是 现在 ， 只 有 45 个 样本 被 正确 地 预测 出 来 ， 分 类 器 说 另外 4 个 样本 属于 
class 1， 还 有 3 个 样本 属于 class 2。 用 同样 的 思路 分 析 另 外 两 行 数据 ， 有 意思 的 是 ，class 1 里 面 
有 11 个 样本 被 错误 地 预测 成 了 class 0, 占 到 了 class 1 总 数 的 16%。 这 就 是 模型 需要 优化 的 切 人 点 。 
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详细 步骤 


(1) 我 们 用 confusion_matrix.py 文 件 作为 参考 。 首 先 看 看 如 何 从 数据 中 提取 混淆 矩阵: 


from sklearn.metrics import confusion matrix 
Venue si “0, OF .27 ls /O73 3 3] 

DEEQ EL ;0 Dt dor On Ts B35 3 
confusion mat = confusion matrix(y_true, y_pred) 
plot_confusion matrix(confusion mat) 


这 里 用 了 一 些 样本 数据 ， 一 共有 4 种 类 型 ， 取 值 范围 是 0~3 ， 也 列 出 了 预测 的 标记 类 型 。 用 
confusion_matrix 方 法 提取 混淆 矩阵 ， 然 后 把 它 画 出 来 。 


(2) 继续 定义 混淆 矩阵 的 画图 函数 : 


# 显示 混淆 矩阵 
def plot_confusion matrix(confusion mat): 
plt.imshow(confusion mat, interpolation='nearest', cmap=plt.cm.Paired) 
plt.title('Confusion matrix') 
plt.colorbar() 
tick_marks = np.arange(4) 


























plt.xticks (tick marks, tick marks) 
plt.yticks (tick marks, tick marks) 
plt.ylabel('True label') 
plt.xlabel ('Predicted label') 
plt.show!() 


这 里 用 imshow 函 数 画 混淆 和 矩阵， 其 他 函数 都 非常 简单 ， 只 使 用 相关 函数 设置 了 图 形 的 标题 、 
颜色 栏 、 刻 度 和 标签 。 参 数 tick_marks 的 取 值 范围 是 0~3， 因 为 数据 集中 有 4 个 标记 类 型 。 
np.arange 国 数 会 生成 一 个 numpy 数 组 。 


(3) 运行 代码 ， 可 以 看 到 如 图 2-9 所 示 的 图 形 。 
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图 2-9 


从 图 2-9 中 可 以 看 出 ， 对 角 线 的 颜色 很 亮 ， 我 们 硕 望 它们 越 亮 越 好 。 黑 色 区 域 表 示 0。 在 非 对 
角 线 的 区 域 有 一 些 灰色 区 域 ， 表 示 分 类 错误 的 样本 量 。 例 如 ， 当 样本 真实 标记 类 型 是 0， 而 预测 
标记 类 型 是 1 时 ， 就 像 在 第 一 行 的 第 二 格 看 到 的 那样 。 事 实 上 ， 所 有 的 错误 分 类 都 属于 class-1， 
因为 第 二 列 有 3 个 不 为 0 的 格子 。 这 在 图 2-9 中 显示 得 一 目 了 然 。 






































2.8 提取 性 能 报告 
也 可 以 直接 用 scikit-learn 打 印 精度 、 召 回 率 和 F1 得 分 。 接 下 来 看 看 如 何 实现 。 








详细 步骤 
(1) 在 一 个 新 的 Python 文件 中 加 入 下 面 的 代码 


from sklearn.metrics import classification report 
本 
| 

target_names = ['Class-0', 'Class-1', 'Class-2', 'Class-3'] 

print (classification reportl(y_true, y_pred, target_ names=target_names)) 


(2) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 2-10 所 示 的 结果 。 











recall f1i-score 





图 2-10 


不 需要 单独 计算 各 个 指标 ， 可 以 直接 用 这 个 函数 从 模型 中 提取 所 有 统计 值 。 




















2.9 根据 汽车 特征 评估 质量 

接 下 来 看 看 如 何 用 分 类 技术 解决 现实 问题 。 我 们 将 用 一 个 包含 汽车 多 种 细节 的 数据 集 , 例如 
车 门 数量 、 后 备 箱 大 小 、 维 修成 本 等 ， 来 确定 汽车 的 质量 。 分 类 的 目的 是 把 车 辆 的 质量 分 成 4 种 
类 型 : 不 达标 、 达 标 、 良 好 、 优 秀 。 



































2.9.1 准备 工作 
你 可 以 从 https://archive.ics.uci.edu/ml/datasets/Car+Evaluation 下 载 数据 集 。 


et 


你 需要 把 数据 集中 的 每 个 值 看 成 是 字符 串 。 考 虑 数据 集中 的 6 个 属性 ,其 取 值 范围 是 这 样 的 : 


LU 



































口 puying: 取 值 范围 是 vhigh、high、med、1low; 
口 maint: 取 值 范围 是 vhigh、high、med、low; 
口 doors: 取 值 范围 是 3、3、4、5 等 ; 

D persons: 取 值 范围 是 2 、4 等 ; 

口 lug_boot: 取 值 范围 是 small、med、big; 

D safety: 取 值 范围 是 low、med、high。 


考虑 到 每 一 行 都 包含 字符 串 属 性 ， 需 要 假设 所 有 特征 都 是 字符 串 ,， 并 设置 分 类 名。 在 上 一 章 
中 ,我们 用 随机 森林 建立 过 回归 絮 ， 这 里 再 用 随机 森林 建立 分 类 屁 。 





















































2.9.2 ”详细 步骤 
(1) 参考 car.py 文 件 中 的 源 代码 。 首 先导 入 两 个 软件 包 : 





from sklearn import preprocessing 
from sklearn.ensemble import RandomForestClassifier 
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(2) 加 载 数据 集 : 
input_file = 'path/to/dataset/car.data.txt' 
# 读 取 数据 
X= [] 
SGount = 0 
with open(input_file, 'r') as f: 
for line in f.readlines(): 





data = line[:-1] .split(',') 
xX.append (data) 


X = np.array (xX) 





每 一 行 都 包含 由 逗号 分 隔 的 单词 列表 。 因 此 ,我 们 解析 输入 文件 ， 对 每 一 行进 行 分 割 ， 然 后 
将 该 列表 附加 到 主 数据 。 我 们 忽略 每 一 行 最 后 一 个 字符 ， 因 为 那 是 一 个 换行 符 。 由 于 Python 程序 
包 只 能 处 理 数值 数据 ， 所 以 需要 把 这 些 属 性 转换 成 程序 包 可 以 理解 的 形式 。 





























(3) 在 上 一 章 中 ,我 们 介绍 过 标记 编码 。 下 面 可 以 用 这 个 技术 把 字符 串 转换 成 数值 : 
# 将 字符 事 转 化 为 数值 


label_encoder = [] 
X_encoded = np.empty (X.shape) 
for 1 item in enumerate(X[0]) : 
label_encoder.append (bfeprocessing.LabelEncodqer () ) 











X_encoded[:, i] = label_encodqer[-1].fit_ transform(X[:, i]) 
xX = X_encoded[:, :-1] .astype (int) 
y = X_encoded[:, -1] .astype (int) 


由 于 每 个 属性 可 以 取 有 限 数量 的 数值 , 所 以 可 以 用 标记 编码 器 将 它们 转换 成 数字 。 我 们 需要 
为 不 同 的 属性 使 用 不 同 的 标记 编码 器 , 例如 ，1lug_boot 属 性 可 以 取 3 个 不 同 的 值 , 需要 建立 一 个 
懂得 给 这 3 个 属性 编码 的 标记 编码 顺 。 行 的 最 后 一 个 值 是 类 ， 将 它 赋值 给 变量 


夫 之 里 Yo 
(4) 接 下 来 训练 分 类 需 : 


# 建立 随机 森林 分 类 器 

params = {'n_estimators': 200, 'max_depth': 8 
classifier = RandomForestClassifier(**params) 
classifier.fit(x, y) 













































































， 'random_ state': 7} 


你 可 以 改变 n_estimators 和 max_depth 参 数 的 值 ， 观察 它们 如 何 改变 分 类 器 的 准确 性 。 我 
们 将 用 一 个 标准 化 的 方法 处 理 参数 选择 问题 。 


(5) 下 面 进行 交叉 验证 : 


# 交叉 验证 
from sklearn import cross_validation 
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accuracy = cross_validation.cross_val_ score(classifier, 
XX) Vn BeOrImo= dadouray Lt. eve) 
print "Accuracy of the classifier: " + str(round(100*accuracy. mean(), 


BD 于 


一 旦 训练 好 分 类 器 ， 我 们 就 需要 知道 它 是 如 何 执行 的 。 我 们 用 三 折 交 又 验证 ( three-fold 
cross-validation， 把 数据 分 3 组 ， 轮 换 着 用 其 中 两 组 数据 验证 分 类 器 ) 来 计算 分 类 需 的 准确 性 。 


(6) 建立 分 类 器 的 主要 目的 就 是 要 用 它 对 孤立 的 和 未 知 的 数据 进行 分 类 。 下 面 用 分 类 器 对 一 

















个 单一 数据 点 进行 分 类 : 


# 对 单一 数据 示例 进行 编码 测试 

Lout data es- "Vvhiohe, "viroh ss 2 SDs Lemalle. “LOW,] 
input_data_encoded = [-1] * len(input_data) 

for i,item in enumerate(input_data): 





input_data_encoded[i] = int(label_ encoder[i].transform(input_datal[i])) 


input_data_encoded = np.array (input_data_encoded) 





第 一 步 是 把 数据 转换 成 数值 类 型 。 需 要 使 用 之 前 训练 分 类 器 时 使 用 的 标记 编码 器 ,因为 我 们 
需要 保持 数据 编码 规则 的 前 后 一 致 。 如 果 输 入 数据 点 里 出 现 了 未 知 数据 , 标记 编码 融 就 会 出 现 异 











常 , 因 为 它 不 知道 如 何 对 这 些 数据 进行 编码 。 例 如 , 如 果 你 把 列表 中 的 第 一 个 值 vhig 














hn 改 成 abca ， 

















那么 标记 编码 器 就 不 知道 如 何 编码 了 ， 因 为 它 不 知道 怎么 处 理 这 个 字符 串 。 这 就 像 是 错误 检查 ， 





看 看 输入 数据 点 是 否 有 效 。 
(7) 现在 可 以 预测 出 数据 点 的 输出 类 型 了 : 
# 预测 并 打印 特定 数据 点 的 输出 


output_class = classifier.predict (input_data_encoded) 
print "Output class:", label encoder[-1].inverse transform(output_class 











) [0] 


我 们 用 predict 方 法 估计 输出 类 型 。 如 果 输 出 被 编码 的 输出 标记 , 那么 它 对 我 们 没有 任何 意 














义 。 因 此 ， 用 inverse_transform 方 法 对 标记 进行 解码 ， 将 它 转换 成 原来 的 形式 ， 
出 类 。 
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然后 打印 输 


前 面 用 随机 森林 建立 了 分 类 需 ， 但 是 并 不 知道 如 何 定义 参数 。 本 节 来 处 理 两 个 参数 : 
n_estimators 和 max_depth 人 参数 。 它 们 被 称 为 超 参数 ( hyperparameters ), 分 类 带 的 性 能 是 由 它 
们 决定 的 。 当 改变 超 参 数 时 ， 如 果 可 以 看 到 分 类 器 性 能 的 变化 情况 ,， 那 就 再 好 不 过 了 。 这 就 是 验 
证 曲线 的 作用 。 这 些 曲 线 可 以 帮助 理解 每 个 超 参数 对 训练 得 分 的 影响 。 基 本 上 , 我 们 只 对 感 兴 
的 超 参 数 进行 调整 ,其 他 参数 可 以 保持 不 变 。 下 面 将 通过 可 视 化 图 片 演示 超 参数 的 变化 对 训练 得 





分 的 影响 。 
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详细 步骤 


(1) 打开 上 一 节 的 Python 文件 ， 加 入 以 下 代码 ; 


# 验证 曲线 


from sklearn.learning curve import validation curve 


classifier = RandomForestClassifier (max_ depth=4, random state=7) 
parameter_grid = np.linspace(25, 200, 8).astype (int) 


train_ scores, validation scores = validation curve(classifier, X, y, "n estimators", 


parameter_grid, cv= 


5 


print "\n###### VALIDATION CURVES #####" 
print "\nParam: n_estimators\nTraining scores:\n", train _ scores 
print "\nParam: n_estimators\nValidation scores:\n", validation scores 


在 这 个 示例 中 , 我 们 通过 固定 max_dqepth 参 数 的 值 来 定义 分 类 器 。 我 们 想 观察 评估 器 数量 对 





训练 得 分 的 影响 ， 于 是 用 























batrameter_griq 定 义 了 搜索 空间 。 评 估 需 数量 会 在 2$~200 之 间 每 隔 8 


个 数 迭 代 一 次 ， 获 得 模型 的 训练 得 分 和 验证 得 分 。 


(2) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 2-11 所 示 的 结果 。 








##### VALIDATION CURVES ##### 


Param: n_estimators 
Training scores : 


.80680174 
.79522431 
.80101302 
.8024602 

.80028944 
.80390738 
.80390738 
.80390738 


.80824891 
80535456 
.80680174 
80535456 
.80463097 
80535456 
80463097 
.80607815 


80752533 
.81041968 
.81114327 
81186686 
.81114327 
81041968 
.81114327 
.81114327 


80463097 
.8089725 

.81476122 
.80752533 
80824891 
80969609 
.81476122 
.81403763 


.81358382] 
.81069364] 
.8150289 ] 
.80346821] 
.81069364] 
.81647399] 
.81719653] 
.81647399]] 


SOSSOSSOOoOS 


Param: n_estimators 
Validation scores: 








.71098266 0.76589595 0.72543353 0.76300578 0.75290698] 
.71098266 0.75433526 0.71965318 0.75722543 0.74127907] 
.71098266 0.72254335 0.71965318 0.75722543 0.74418605] 
.71098266 0.71387283 0.71965318 0.75722543 0.72674419] 
.71098266 0.74277457 0.71965318 0.75722543 0.74127907] 
.71098266 0.74277457 0.71965318 0.75722543 0.74127907] 
.71098266 0.74566474 0.71965318 0.75722543 0.74418605] 
.71098266 0.75144509 0.71965318 0.75722543 0.74127907]] 
图 2-11 

(3) 把 数据 画 成 图 形 : 

# 画 出 曲线 图 

plt.figure!() 

plt.plot (parameter_grid, 100*np.average (train scores, axis=1), color='black') 


plt.title('Training curve') 
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plt.xlabel('Number of estimators') 
plt.ylabel ('Accuracy') 
plt.show!() 


(4) 得 到 的 图 形 如 图 2-12 所 示 。 
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图 2-12 
(5) 用 类 似 的 方法 对 max_qepth 人 参数 进行 验证 : 


classifier = RandomForestClassifier(n estimators=20, random state=7) 

parameter_grid = np.linspace(2, 10, 5) .astype (int) 

train_scores, valid scores = validation curve(classifier, X, y, "max_depth", 
parameter_grid, cv=5) 

print "\nParam: max_depth\nTraining scores:\n", train_ scores 

print "\nParam: max_depth\nValidation scores:\n", validation_ scores 


我 们 把 np_estimators 参 数 固 定 为 20, 看 看 max_depth 参 数 变化 对 性 能 的 影响 。 命令 行 工 具 
的 输出 结果 如 图 2-13 所 示 。 


(6) 把 数据 画 成 图 形 : 


# 画 出 曲线 图 

plt.figure() 

plt.plot (parameter_grid, 100*np.average (train scores, axis=1), color='black') 
plt.title('Validation curve') 

plt.xlabel ('Maximum depth of the tree') 

plt.ylabel ('Accuracy') 

plt.show!() 
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2.11 


Param: max_depth 

Training scores : 

[[ 0.71852388 0.70043415 0.70043415 0.70043415 0.69942197] 
[ 0.80607815 0.80535456 0.80752533 0.79450072 0.81069364] 
[ 0.90665702 0.91027496 0.92836469 0.89797395 0.90679191] 


0 
[ 0.97467438 0.96743849 0.97105644 0.97829233 0.96820809] 
[ 0.99421129 0 


.99782923 0.99782923 0.99855282 0.99421965]] 


Param: max_depth 

Validation scores: 
.71098266 0.76589595 
.71098266 0.75433526 
.71098266 ”0.72254335 
.71098266 0.71387283 
.71098266 0.74277457 
.71098266 0.74277457 
.71098266 0.74566474 
.71098266 .75144509 


.72543353 
.71965318 
.71965318 
.71965318 
.71965318 
.71965318 
.71965318 
.71965318 


.76300578 
.75722543 
.75722543 
.75722543 
.75722543 
.75722543 
.75722543 
.75722543 


.75290698] 
.74127907] 
.74418605] 
.72674419] 
.74127907] 
.74127907] 
.74418605] 
.74127907]] 


SEOSOSSSeOS 
SOEOSOSOSOSOOeOS 
SOSOSOSOSOOS 





图 2-13 


(7) 运行 代码 ， 可 以 看 到 如 图 2-14 所 示 的 图 形 。 


学 习 曲 
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图 2-14 


生成 学 习 曲 线 


线 可 以 帮助 我 们 理解 训练 数据 集 的 大 小 对 机 器 学 习 模型 的 影响 。 当 遇 到 计算 能 力 限 抽 
非常 有 用 。 下 面 改变 训练 数据 集 的 大 小 ， 把 学 习 曲 线 画 出 来 。 
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bea J 上 .1H 
详细 步骤 
了 i yp 、 
(1) 打开 上 一 节 的 Python 文件 ， 加 入 以 下 代码 : 
# 学 习 曲 线 
from sklearn.learning_curve import learning_curve 
classifier = RandomForestClassifier(random state=7) 
parameter_grid = np.array ([200, 500, 800, 1100]) 
train_ sizes, train scores, validation scores = Learning_ curve(classifier, 
XxX, y, train sizes=parameter_grid, cv=5) 
print "\n##### LEARNING CURVES #####" 


print "\nTraining scores:\n", train _ scores 
print "\nValidation scores:\n", validation scores 











我 们 想 分 别 用 200、500 、800 、1100 的 训练 数据 集 的 大 小 测试 模型 的 性 能 指标 。 我 们 于 
learning_curve 方 法 中 的 cv 参数 设置 为 5， 就 是 用 五 折 交 叉 验 证 。 


(2) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 2-15 所 示 的 结果 。 












































##### LEARNING CURVES ##### 


Training scores: 


[CL 1. 1. l >, ] 
ET: 1 .998 .998 ] 
J] 
] 


[ 0.99875 0.99875 .99875 .99875 
[ 0.99909091 0.99545455 0.99909091 0.99818182 0.99818182]] 


Validation scores : 

[[ 0.69942197 0.69942197 0.69942197 0.69942197 0.70348837] 
[ 0.75433526 0.65028902 0.76878613 0.76589595 0.70348837] 
[ 0.70520231 0.78612717 0.52312139 0.76878613 0.77034884] 
[ 0.6416185 0.75722543 .64450867 .75433526 .76744186]] 








图 2-15 
(3) 把 数据 画 成 图 形 : 
# 画 出 曲线 图 
plt.figure!() 
plt.plot (parameter_grid, 100*np.average (train scores, axis=1), color='black') 


plt.title('Learning curve') 

plt.xlabel ('Number of training samples') 
plt.ylabel ('Accuracy') 

plt.show!() 


(4) 得 到 的 图 形 如 图 2-16 所 示 。 
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图 2-16 

虽然 训练 数据 集 的 规模 越 小 , 仿佛 训练 准确 性 越 高 , 但 是 它们 很 容易 导致 过 度 拟 合 。 如 果 选 
择 较 大 规模 的 训练 数据 集 ， 就 会 消耗 更 多 的 资源 。 因 此 ,训练 数据 集 的 规模 选择 也 是 一 个 需要 结 
合计 算 能 力 进行 综合 考虑 的 问题 。 

















2.12 ”估算 收入 阶层 


本 节 将 根据 14 个 属性 建立 分 类 器 评估 一 个 人 的 收入 等 级 ,可 能 的 输出 类 型 是 “高 于 50K” 和 “ 低 
于 或 等 于 50K”。 这 个 数据 集 稍微 有 点 复杂 , 里 面 的 每 个 数据 点 都 是 数字 和 字符 串 的 混合 体 。 数值 
数据 是 有 价值 的 ， 在 这 种 情况 下 , 不 能 用 标记 编码 器 进行 编码 。 需 要 设计 一 套 既 可 以 处 理 数 值 数 
据 ， 也 可 以 处 理 非 数 值 数据 的 系统 。 我 们 将 用 美国 人 口 普查 收入 数据 集中 的 数据 : 


https://archive.ics.uci.edu/ml/datasets/CensustIncome 。 



























































详细 步骤 
(1) 我 们 将 用 income.py 文 件 作为 参考 , 用 朴素 贝 叶 斯 分 类 器 解决 问题 。 首 先导 入 两 个 软件 包 : 


from sklearn import preprocessing 
from sklearn.naive bayes import GaussianNB 


(2) 加 载 数 据 集 : 
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input_file = 'path/to/adqult .data.tXt' 


# 读 取 数据 

X= [] 

y = [] 
count_lessthan50Ok = 0 
Count_morethan50K 
num_ images_threshold = 10000 


(3) 我 们 将 使 用 数据 集中 的 20 000 个 数据 点 一 一 每 种 类 型 10 000 个 ， 保 证 初始 类 型 没有 偏差 。 
在 模型 训练 时 , 如 果 你 的 大 部 分 数据 点 都 属于 一 个 类 型 , 那么 分 类 器 就 会 倾向 于 这 个 类 型 。 因此 ， 
最 好 使 用 每 个 类 型 数据 点 数量 相等 的 数据 进行 训练 : 


ll 
ep 




















with open(input_file, 'r') as f: 
for line in f.readqlines() : 
Tf 3 LE 
continue 


data = Tinel[l:=1] ,split(", *) 


if data[-1] == '<=50K' and count_lessthan50k < num images_ threshold: 
XxX.append (data) 
count_ lessthan50k = count_ lessthan50K + 1 


elif aqata[-1] == '>50K' and count_morethan50k < num images_threshold: 
xX.append (data) 
Count_morethan50k = count_ morethanSOk + 1 


if count_lessthan5Ok >= num_ images_threshold and count_morethan50Kk >= 


num_ images_threshold: 
break 


xX = np.array (X) 
同样 地 ,这 也 是 一 个 带 逗 号 分 隔 符 的 文件 。 我 们 还 是 像 之 前 那样 处 理 ， 把 数据 加 载 到 变量 x。 
(4) 我 们 需要 把 字符 串 属 性 转换 为 数值 数据 ， 同 时 需要 保留 原 有 的 数值 数据 : 


# 将 字符 串 转 换 为 数值 数据 

label_encoder = [] 

X_encoded = np.empty (X.shape) 

for i,item in enumerate(X[0]) : 
if item.isdigit(): 




















XxX_encoded[:, i] = X[:, i] 
else: 
label_encoder.append (preprocessing.LabelEncoder()) 
X_encoded[:, i] = label_ encoder[-1] .fit transform(X[:, i]) 
xX = X_encoded[:, :-1] .astype (int) 
y = X_encoded[:, -1] .astype (int) 


isdigit () 函数 帮助 我 们 判断 一 个 属性 是 不 是 数值 数据 。 我 们 把 字符 串 数 据 转换 为 数值 数 
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据 ， 然 后 把 所 有 的 标记 编码 器 保存 在 一 个 列表 中 ,便于 在 后 面 处 理 未 知 数据 时 使 用 。 
(5) 训练 分 类 器 : 
# 建立 分 类 器 


classifier gaussiannb = GaussianNB() 
classifier gaussiannb.fit(x, y) 


(6) 把 数据 分 割 成 训练 数据 集 和 测试 数据 集 ， 方便 后面 获取 性 能 指标 : 


# 交叉 验证 
from sklearn import cross_validation 














XxX_train, XxX_ test, y_train, y_test = cross_validation.train test_split (Xx, y, 
test_size=0.25, random_ state=5) 

classifier_ gaussiannb = GaussianNB() 

classifier_ gaussiannb.fit (x train, y_train) 

y_test_pred = classifier gaussiannb.predict (xXx_test) 


(7) 提取 性 能 指标 : 


# 计算 分 类 器 的 F1 得 分 


fi = cross_validation.cross_val_scorel(classifier gaussiannb, 
xX, y, scoring='f1 weighted', cv=5) 
print "Fl1 score: " + str(round(100*fl1.mean(), 2)) + "%$" 


(8) 接 下 来 看 看 如 何 为 单一 数据 点 分 类 。 我 们 需要 把 数据 点 转换 成 分 类 器 可 以 理解 的 形式 : 


# 对 单一 数据 示例 进行 编码 测试 
input_data = ['39', 'State-gov', '77516', 'Bachelors', '13', 'Never-married', 
'Adm-clerical', 'Not-in-family', 'White', 'Male', '2174', '0', '40', 'United-States'] 
count = 0 
input_data_encoded = [-1] * len(input_data) 
for i,item in enumerate (input_data): 

if item.isdigit(): 


input_data_encoded[i] = int (input_datal[i]) 

else: 
input_data_encoded[i] = int(label_ encoder[lcount] .transform(input_datal[lil])) 
count = count + 1 


input_data_encoded = np.array (input_data_encoded) 
(9) 这 样 就 可 以 进行 分 类 了 : 


# 预测 并 打印 特定 数据 点 的 输出 结果 
output_class = classifier gaussiannb.predict (input_data_encoded) 
print label_ encoder[-1].inverse transform(output_class) [0] 


和 之 前 的 分 类 案例 一 样 ， 我 们 用 predict 方 法 获取 输出 类 型 ， 然 后 用 inverse_transform 
对 标记 进行 解码 ， 将 它 转换 成 原来 的 形式 ， 然 后 在 命令 行 工 具 中 打印 出 来 。 


预测 建 模 








在 这 一 音 ， 我 们 将 介绍 以 下 主题 : 


口 用 SVM (Support Vector Machines， 支 持 向 量 机 ) 建立 线性 分 类 器 
口 用 SVM 建立 非 线性 分 类 器 

口 解决 类 型 数量 不 平衡 问题 

口 提取 置信 度 

口 寻找 最 优 超 参 数 

口 建立 事件 预测 需 

口 估算 交通 流量 














3.1 简介 


预测 建 模 ( Predictive modeling ) 可 能 是 数据 分 析 中 最 吸引 人 的 领域 之 一 。 近 几 年 ， 由 于 大 数 
据 在 各 个 垂直 领域 的 莲 勃 发 展 ,预测 建 模 备 受 关注 。 在 数据 挖掘 领域 ， 预 测 建 模 常用 来 预测 未 来 
趋势 。 


预测 建 模 是 一 种 用 来 预测 系统 未 来 行为 的 分 析 技 术 , 它 由 一 群 能 够 识别 独立 输入 变量 与 反馈 
目标 关联 关系 的 算法 构成 。 我 们 根据 观测 值 创建 一 个 数学 模型 ， 然 后 用 这 个 模型 去 预测 未 来 发 生 
的 事情 。 

在 预测 建 模 中 , 需要 收集 已 知 的 响应 数据 来 训练 模型 。 一 旦 模型 建成 , 就 可 以 用 一 些 指 标 来 
检验 它 ， 然 后 用 它 预 测 未 来 值 。 可 以 通过 许多 种 不 同 的 算法 来 创建 预测 模型 。 本 章 将 利用 SVM 
来 建立 线性 模型 与 非 线性 模型 。 

预测 模型 是 用 若干 可 能 对 系统 行为 产生 影响 的 特征 构建 的 。 例 如 ,如果 要 预测 天 气 情况 ,就 
需要 用 气温 、 大 气压 、 降 雨量 和 其 他 的 气象 数据 。 类 似 地 ， 当 处 理 其 他 系统 问题 时 ， 也 需要 先 判 
断 哪些 因素 可 能 会 影响 系统 的 行为 ， 然 后 在 训练 模型 之 前 把 这 些 因素 加 入 特征 中 。 
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3.2 用 SVM 建立 线性 分 类 器 


SVM 是 用 来 构建 分 类 器 和 回归 咒 的 监督 学 习 模 型 。SVM 通 过 对 数学 方程 组 求解 ， 可 以 找 出 
两 组 数据 之 间 的 最 佳 分 制 边界 。 如 果 你 对 SVM 不 太 了 解 ， 可 以 从 下 面 几 个 不 错 的 教程 开始 学 习 : 





























口 http://web.mit.edu/zoya/www/SVM.pdf 
DD http://www.support-vector.net/icml-tutorial.pdf 








口 http://www.svms.org/tutorials/Berwick2003.pdf 


下 面 看 看 如 何 用 SVM 建立 线性 分 类 器 。 





3.2.1 准备 工作 


为 了 便于 理解 问题 ， 先 对 数据 进行 可 视 化 。 我 们 将 参考 svm.py 文 件 里 已 有 的 源 代 码 。 在 建立 
SVM 之 前 ， 先 对 数据 进行 直观 的 认识 。 我 们 将 使 用 源 代码 文件 夹 里 的 data_multivar.txt 文 件 。 下 面 
看 看 如 何 对 数据 进行 可 视 化 。 首 先 创建 一 个 Python 文件 ， 然 后 在 文件 中 增加 下 面 的 代码 : 





import numpy as np 
import matplotlib.pyplot as plt 


import utilities 

# 加 载 输入 数据 

input_file = 'data multivar.txt' 

X y = utilities.load data(input_file) 


刚刚 导入 了 需要 的 程序 包 ， 然 后 确定 了 输入 文件 的 名 称 。 接 下 来 看 看 1oaq_dqata() 方 法 : 


# 加 载 输入 文件 中 的 多 变量 数据 
def load datal(input_file): 











with open(input_file, 'r') as f: 
for line in f.readqlines() : 
data = [float (x) for x in line.split(',')] 
XxX.append(datal[:-1]) 
y.append (data[-1]) 


又 
y 


np.array (X) 
np.array (y) 


柜员 


return X, y 
需要 将 数据 分 成 类 ， 如 下 所 示 : 


class_0 
class_1 


np.array ([X[i] for i in range(len(Xx)) if yl[il] 
np.array ([X[i] for i in range(len(Xx)) if yl[il] 
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数据 分 成 类 之 后 ， 我 们 把 它们 画 出 来 : 


plt.figure!() 


plt.scatter(class_0[:,0], class_0[:,1], facecolors='black', edgecolors='black', 
marker='s') 

plt.scatter(class_1[:,0], class_1[:,1], facecolors='None', edgecolors='black', 
marker='s') 

plt.title('Input data') 

plt.show!() 


运行 代码 ， 可 以 看 到 如 图 3-1 所 示 的 图 形 。 
























































图 3-1 





图 3-1 由 两 种 类 型 的 数据 点 构成 一 一 实心 方块 和 空心 方块 。 用 机 带 学 习 的 术语 说 就 是 ， 我 们 
的 数据 由 两 个 类 型 组 成 。 我 们 的 目标 就 是 要 建立 一 个 可 以 将 实心 方块 和 空心 方块 分 开 的 模型 。 


3.2.2 ”详细 步骤 


(1) 我 们 需要 将 数据 集 分 割 成 训练 数据 集 和 测试 数据 集 。 在 同样 的 Python 文件 中 加 入 以 下 代码 : 
# 分 害 数 据 集 并 用 SVM 训练 模型 


from sklearn import cross_validation 
from sklearn.svm import SVC 


XxX train, XxX test, y_train, y_test = cross_ validation.train test_ split (XxX, y, 
test_size=0.25, random state=5) 


图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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(2) 用 线性 核 函 数 (linear kernel ) 初始 化 一 个 SVM 对 象 。 如 果 你 不 了 解 核 函数 的 概念 ， 请 参 
考 http://www.eric-kim.net/eric-kim-net/posts/1/kernel trick.html。 在 文件 中 加 入 以 下 代码 : 





params = {'kernel': 'linear'} 
classifier = SVC(**params) 


(3) 现在 可 以 训练 线性 SVM 分 类 器 了 : 
Classifier.fit(X train, y_train) 


(4) 现在 可 以 看 到 分 类 右 是 如 何 执行 的 : 








utilities.plot_ classifier(classifier, X train, y_train, 
plt.show!() 


(5) 运行 代码 ， 可 以 看 到 如 图 3-2 所 示 的 图 形 。 


'Training dataset') 








[ @ee® Figure 2 


Training dataset 














命 |@@|@@| 十 | 贸 | 蕊 | 园 





图 3-2 








plot_classifier 限 数 和 之 前 介绍 的 画图 函数 一 样 ， 只 是 额外 增加 了 两 点 内 容 。 你 可 以 在 
utilities.py 文 件 里 查看 所 有 细节 。 











(6) 接 下 来 看 看 分 类 需 对 测试 数据 集 的 执行 。 在 Python 文件 中 增加 下 面 的 代码 : 


y_test_pred = classifier.predict (Xx_test) 


utilities.plot_classifier(classifier, X test, y_test, 'Test dataset') 
plt.show!() 
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(7) 运行 代码 ， 可 以 看 到 如 图 3-3 所 示 的 图 形 。 








3 (G2 Figure 3 


Test dataset 
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图 3-3 


生 。 在 Python 文件 中 增加 下 面 的 代码 : 








(8) 接 下 来 计算 训练 数据 集 的 准确 


from sklearn.metrics import classification report 


一 











target_ names = ['Class-' + str(int(i)) for i in set(y)] 

print "\n"™ + "#"*30 

print "\nClassifier performance on training dataset\n" 

print classification report(y_train, classifier.predict (x train), 
target_names=target_names) 

print "#"*30 + "\n" 


(9) 运行 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 3-4 所 示 的 结果 。 























认 基 这 在 关于 罕 关 兴 闪 下 池 丰 窜 天 罕 天 天守 认 天 闪闪 于 闪闪 天 窜 守 闪 
Classifier performance on training dataset 
precision recaLL fl1-score ， support 


Class-0 0.55 105 
Class-1 . ; 120 


avg / total x P42 


天 并 # 检 ## 并 痢 闪 并 开 检 闪闪 天 并 检 闪 天 检 闪闪 并 # 检 闪 ## 并 
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I. 


(10) 最 后 看 看 分 类 融 为 测试 数据 集 生成 的 分 类 报告 : 


print "#"*30 

print "\nClassification report on test dataset\n" 

print classification reportl(y_test, y_test pred, target names=target_names) 
print "#"*30 + "\n" 


(11) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 3-5 所 示 的 结果 。 


























Et 





CLassification report on test dataqset 


precision recall fil-score support 


Class-0 : 45 
CLass-1 30 


avg / total 3 75 





##### 检 ### 枯 枯 # 检 检 枯 枯 间 间 # 检 奉天 间 ## 闪 检 间 天 # 
图 3-5 
从 前 面 数 据 的 可 视 化 图 中 可 以 看 出 , 实心 方块 完全 是 被 空心 方块 包围 着 的 , 也 就 是 说 两 种 类 


型 的 数据 不 是 线性 可 分 的 。 我 们 无 法 画 出 一 条 可 以 分 离 两 种 类 型 数据 点 的 完美 直线 , 因此 需要 尝 
试 使 用 非 线 性 分 类 融 来 分 离 这 两 种 数据 。 















































3.3 用 SVM 建立 非 线 性 分 类 家 


SVM 为 建立 非 线 性 分 类 器 提供 了 许多 选项 , 需要 用 不 同 的 核 函 数 建立 非 线性 分 类 器 。 为 了 简 
单 起 见 ， 考 虑 两 种 情况 ， 当 想 要 表示 两 种 类 型 数据 的 曲线 边界 时 ， 既 可 以 用 多 项 式 困 数 ， 也 可 以 
用 径 向 基 函 数 (Radial Basis Function，RBF )。 


























详细 步骤 


(1) 对 于 第 一 种 情况 ， 可 以 用 一 个 多 项 式 核 函 数 建立 非 线 性 分 类 器 。 在 同样 的 Python 文件 中 
搜索 下 面 的 代码 : 








params = {'kernel': '1Linear'} 
将 其 替换 成 下 面 的 代码 : 
params = {'kernel': 'poly', 'degree': 3} 

















这 就 表示 我 们 用 了 一 个 三 次 多 项 式 方程 如 果 增 加 方程 的 次 数 , 就 表示 可 以 让 曲线 更 加 弯 
但 是 ， 昌 线 越 弯 曲 ， 意 味 着 训练 要 花费 的 时 间 越 长 ， 因 为 计算 强度 更 大 。 





O 
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(2) 运行 代码 ， 可 以 看 到 如 图 3-6 所 示 的 图 形 。 





[eaee Figure 2 


Training dataset 





冉 转 





介 OIOl+ 














图 3-6 
(3) 还 可 以 在 命令 行 工具 中 看 到 如 图 3-7 所 示 的 分 类 报告 。 





############## 帮 ### 开 并 开 # 并 并 ## 开 并 并 检 # 开 # 开 


Classifier performance on training dataset 


precision [9 


Class-0 : 105 
CLass-1 120 


avg / total 了 s 225 





天 并 ## 开 并 # 检 六 红 ## 开 闪 关 检 闪 柑 闪 帮 检 天 检 ## 玫 天 关 大 闪 检 ## 检 





图 3-7 
(4) 我 们 还 可 以 用 径 向 基 郴 数 建立 非 线 性 分 类 器 。 在 同样 的 Python 文件 中 搜索 下 面 的 代码 : 
params = {'kernel': 'poly', 'degree': 3} 
将 其 蔡 换 成 
params = {'kernel': 'rbf'} 


(5) 运行 代码 ， 可 以 看 到 如 图 3-8 所 示 的 图 形 。 
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©e Figure 2 


Training dataset 
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图 3-8 
(6) 还 可 以 在 命令 行 工具 中 看 到 如 图 3-9 所 示 的 分 类 报告 。 


天 并 闪闪 间 闪 天 天 闪闪 天 闪闪 天 关 奉 关 天 检 关 理 检 闪闪 天 闪 ## 帮 大 
Classifier performance on training dataset 
precision recqLL fl-score Support 


Class-0 0.95 机 105 
Class-1 0.98 由 120 


avg / total 0.97 了 225 


天 #### 并 并 并 并 检 检 关 检 大 天 闪 间 柑 并 并 并 检 检 检 检 枯 天 在 大 





3.4 解决 类 型 数量 不 平衡 问题 


到 目前 为 止 , 我 们 处 理 的 问题 都 是 所 有 类 型 的 数据 点 数量 比较 接近 的 情况 , 但 是 在 真实 世界 
中 , 我 们 不 可 能 总 能 获取 到 这 么 均衡 的 数据 集 。 有 时 ， 某 一 个 类 型 的 数据 点 数量 可 能 比 其 他 类 型 
多 很 多 , 在 这 种 条 件 下 训练 的 分 类 器 就 会 有 偏差 。 边 界线 不 会 反映 数据 的 真实 特性 ， 因 为 两 种 类 
型 的 数据 点 数量 差别 太 大 。 因 此 ， 需 要 慎重 考虑 这 种 差异 性 ， 并 想 办 法 调和 , 才能 保证 分 类 需 是 
不 偏 不 倚 的 。 





详细 步骤 


(1) 先 加 载 数据 : 
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input_file = 'data multivar_imbalance.txt' 
xX, y = utilities.load data(input_file) 


(2) 接 下 来 可 视 化 这 些 数据 。 数 据 可 视 化 的 代码 和 前 面 章 节 中 的 可 视 化 代码 完全 相同 ， 可 以 
参考 svm_imbalance.py 文 件 中 的 源 代码 。 运 行 代码 ， 可 以 看 到 如 图 3-10 所 示 的 图 形 。 








©@9e Figure 1 


Input data 











2 , , , 一 一 


0 2 4 6 8 10 12 





谷 |@@| 目 | 十 | 所 | 向 | 园 








图 3-10 





(3) 下 面 用 线性 核 函 数 建立 一 个 SVM 分 类 顺 , 代码 和 前 面 章节 中 的 代码 完全 相同 。 运 行 代码 ， 
可 以 看 到 如 图 3-11 所 示 的 图 形 。 





©Oe Figure 2 


Training dataset 
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图 3-11 
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(4) 你 可 能 会 奇怪 为 什么 没有 边界 线 了 。 其 实 是 因为 分 类 器 不 能 区 分 两 种 类 型 , 导致 class-0 
的 准确 性 是 0%。 可 以 在 命令 行 工具 中 看 到 如 图 3-12 所 示 的 分 类 报告 。 
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图 3-12 
从 图 3-12 中 也 可 以 看 出 ，class-0 的 准确 性 是 0%。 
(5) 我 们 继续 来 解决 这 个 问题 。 在 Python 文 件 中 搜索 下 面 的 代码 : 


params = {'kernel': 'linear'} 
将 其 蔡 换 成 : 
params = {'kernel': '1inear'，'class_weight': 'auto'} 











参数 class_weight 的 作用 是 统计 不 同类 型 数据 点 的 数量 , 调整 权重 ,让 类 型 不 平衡 问题 不 
影响 分 类 效果 。 


(6) 运行 代码 ， 可 以 看 到 如 图 3-13 所 示 的 图 形 。 
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Test dataset 
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图 3-13 
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(7) 可 以 在 命令 行 工 具 中 看 到 如 图 3-14 所 示 的 分 类 报告 。 
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CLassification report on test dataset 
precision recal1 fl-score “Support 


Class-0 y 42 
CLass-1 。 258 


avg / total > > 区 300 
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图 3-14 


从 图 3-14 中 可 以 看 到 ，class-0 的 准确 性 不 是 0% 了 。 





3.5 提取 置信 度 


如 果 能 够 获取 对 未 知 数据 进行 分 类 的 置信 水 平 , 那 将 会 非常 有 用 。 当 一 个 新 的 数据 点 被 分 类 
为 某 一 个 已 知 类 别 时 ， 我 们 可 以 训练 SVM 来 计算 出 输出 类 型 的 置信 和 度 。 











详细 步骤 

(1) 读者 可 以 参考 svm_confidence.py 文 件 中 的 源 代码 ， 这 里 只 介绍 核心 部 分 。 首 先 ， 定 义 以 
下 输入 数据 : 

# 测量 数据 点 与 边界 的 距离 


OUut Gatasoints: = me. drray (tl2, L535] [8 9 [2 
[Syd.r> S991] 


(2) 测量 数据 点 到 边界 的 距离 : 








U 





print "\nDistance from the boundary:" 
for i in input_datapoints: 
print i, '-->', classifier.decision function(i)[0] 


(3) 可 以 在 命令 行 工 具 中 看 到 如 图 3-15 所 示 的 结 
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图 3-15 
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(4) 到 边界 的 距离 向 我 们 提供 了 一 些 关 于 数据 点 的 信息 ， 但 是 它 并 不 能 准确 地 告诉 我 们 分 类 
器 能 够 输出 某 个 类 型 的 置信 度 有 多 大 。 为 了 解决 这 个 问题 ， 需 要 用 到 概率 输出 ( Platt scaling )。 
概率 输出 是 一 种 将 不 同类 别 的 距离 度量 转换 成 概率 度量 的 方法 。 读 者 可 以 通过 http://fastml.com/ 
classifier-calibration-with-platts-scaling-and-isotonic-regression 的 教程 学 习 概 率 输 出 的 内 容 。 下 面 继 
续 用 概率 输出 来 训练 SVM : 

# 测量 置信 度 


params = {'kernel': 'rbf', 'probability': True} 
classifier = SVC(**params) 


参数 probability 用 于 告诉 SVM 训练 的 时 候 要 计算 出 概率 。 


(5) 训练 分 类 需 : 


























classifier.fit(x _ train，yYy train) 
(6) 计算 输入 数据 点 的 置信 度 : 


print "\nConfidence measure:" 
for i in input_datapoints: 
print i, '-->', classifier.predict _ proba(i)[0] 














predict_proba 也 数 用 于 测量 置信 值 。 


(7) 可 以 在 命令 行 工具 中 看 到 如 图 3-16 所 示 的 结果 。 
































Confidence measure: 
[ 沁 : 1.5] --> [ 0.05126939 0.94873061] 
| 9.] --> [0.11146888 0.88853112] 
[4.8 5.2] --> [ 0.99728099 0.00271901] 
[4. 4.] --> [ 0.51684952 0.48315048] 
[ 2. 7. ] --> [ 0.08697132 0.91302868] 
| 2. ] --> [ 0.03124531 0.96875469] 
ES 5.9] --> [ 0.96844526 0.03155474] 
图 3-16 
(8) 再 看 看 数据 点 与 边界 的 位 置 : 
Utilities.plot_classifier(classifier，input_dqatapoints，[0]x*len(input_dqatapoints) ， 


'Input datapoints', 'True') 


(9) 运行 代码 ， 可 以 看 到 如 图 3-17 所 示 的 图 形 。 
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图 3-17 


3.6 “寻找 最 优 超 参数 
就 像 上 一 章 提 到 的 , 超 参数 对 分 类 器 的 性 能 至 关 重 要 。 本 节 我 们 看 看 如 何 为 SVM 获取 最 优 的 


详细 步骤 


(读者 可 以 参考 perform_grid_search.py 文 件 中 的 源 代 码 , 这 里 只 介绍 核心 部 分 。 这 里 将 使 用 
前 面 介 绍 过 的 交叉 验证 。 加 载 完 数 据 ,， 并 将 数据 分 成 训练 数据 集 和 测试 数据 集 之 后 ,向 文件 中 加 
和 人 下面 的 代码 : 


# 通过 交叉 检验 设置 参数 


parameter_grid = [ {'kernel': ['linear'], 'C': [1, 10, 50, 600]}, 
{'kernel': ['poly'], 'degree': [2, 3]}, 
{"kernel"; [rbf'];, gamma [0.01; 0.001]; “C's [LT 10,. .50 60013}, 
] 
(2) 定义 需要 使 用 的 指标 : 
metrics = ['precision', 'recall weighted'] 








(3) 下 面 开始 为 每 个 指标 搜索 最 优 超 参数 : 


for metric in metrics: 
print "\n#### Searching optimal hyperparameters for", metric 
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classifier = grid_ search.GridSearchCV (svm.SVC (C=1), 
parameter_grid, cv=5, scoring=metric) 
classifier.fit (x train, y_train) 


(4) 看 看 指标 的 得 分 : 





print "\nScores across the parameter grid:" 
for params, avg_score, _ in classifier.grid scores_: 
print params, '-->', roundl(avg_score, 3) 


(5) 打印 出 最 好 的 参数 集 : 





print "\nHighest scoring parameter set:", classifier.best params_ 


(6) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 3-18 所 示 的 结果 。 





#### Searching optimal hyperparameters for precision 


Scores across the parameter grid: 
'; "linear', 'C': 1} --> 0.676 
i 10} --> 0.676 
50} --> 0.676 
600} --> 0.676 
'degree': 2} --> 0.872 
', "degree': 3} --> 0.872 


: 1, 'gamma': 0.01} --> 0.98 
': 1，"gamma': 0.001} --> 0.533 
四 ": 0.01} --> 0.983 
: 10, °" 001} --> 0.543 
证 01} --> 0.959 
7 001} --> 0.806 
: 600, " .01} --> 0.967 
': 600, 'gamma': 0.001} --> 0.983 


Highest scoring parameter set: {'kernel': "rbf', 'C': 10, 'gamma': 0.01} 





图 3-18 
(7) 从 图 3-18 可 以 发 现 ， 模 型 搜索 到 了 所 有 的 最 优 超 参数 。 在 这 个 示例 中 ， 超 参数 是 内 核 、C 


值 和 gamma 的 类 型 。 模 型 将 会 尝试 各 种 不 同 参数 的 组 合 来 搜索 最 佳 参数 。 接 下 来 在 测试 数据 集 上 
做 测试 : 
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滁 


y_true, y_pred = y_test, classifier.predict (x_test) 
print "\nFull performance report:\n" 
print classification report(y_true, y_pred) 


(8) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 3-19 所 示 的 结 明 
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3.7 ”建立 事件 预测 器 


接 下 来 把 所 学 的 知识 用 于 解决 真实 世界 的 问题 。 我 们 将 建立 一 个 SVM 来 预测 一 栋 大 楼 进出 楼 
门 的 人 数 。 该 数据 集 可 以 在 https:/archive.ics.uci.edu/ml/datasets/CalIt2+Building+People+Counts 下 
载 。 我 们 将 对 数据 集 稍 做 调整 ， 以 便 简 化 分 析 过 程 。 调 整 过 的 数据 集 存 放 在 building_event_ 
binary.txt 文 件 和 building_event multiclass.txt 文 件 中 。 











Ee 





3.7.1 准备 工作 


在 建立 模型 之 前 ， 我 们 先 看 看 数据 格式 。 building event_binary.txt 文 件 的 每 一 行 都 由 6 个 去 号 
分 割 的 字符 串 组 成 。 这 6 个 字符 串 的 排序 如 下 : 


口 星期 

口 日 期 

口 时 间 

口 离开 大 楼 的 人 数 

口 进入 大 楼 的 人 数 

口 是否 有 活动 

前 5 个 字符 串 组 成 输入 数据 ， 我 们 的 任务 是 预测 大 楼 是 否 举 行 活动 。 


building_event_multiclass.txt 文 件 的 每 一 行 都 由 6 个 逗号 分 割 的 字符 串 组 成 。 这 个 数据 集 比 前 
面 的 更 细 ， 里 面 指明 了 大 楼 举行 活动 的 类 型 。 这 6 个 字符 串 的 排序 如 下 : 


D 星期 
口 日 期 
口 时 间 
口 离开 大 楼 的 人 数 
口 进入 大 楼 的 人 数 
口 活动 类 型 


前 5 个 字符 串 是 输入 数据 ， 我 们 的 任务 是 预测 大 楼 将 举行 什么 活动 。 


















































3.7.2 ”详细 步骤 
(1) 读者 可 以 参考 event.py 文 件 中 的 源 代码 。 创 建 一 个 Python 文 件 ， 然 后 加 入 下 面 的 代码 : 
import numpy as np 


from sklearn import preprocessing 
from sklearn.svm import SVC 
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input_file = 'building_ event_binary .txt' 


# 读 取 数 据 
xX = [] 
count = 0 
with open(input_file, 'r') as f: 
for line in f.readqlines() : 
data = line[:-1] .split(',') 
XxX.append([data[0]] + data[2:]) 





X = np.array (X) 

我 们 把 数据 全 部 加 载 到 变量 x 中 。 

(2) 下 面 将 字符 串 格 式 转换 成 数值 格式 : 
# 将 字符 囊 转换 成 数值 


label_encoder = | 

X_encoded = np.empty (X.shape) 

for i,item in enumerate(X[0]) : 
if item.isdigit(): 





X_encoded[:, i] = X[:, i] 
else: 
label_encoder.append (preprocessing.LabelEncoder()) 
X_encoded[:, i] = label encoder[-1] .fit_ transform(X[:, i]) 
xX = X_encoded[:, :-1] .astype (int) 
y = X_encoded[:, -1] .astype (int) 


(3) 用 径 向 基 三 数 、 概 率 输出 和 类 型 平衡 方法 训练 SVM 分 类 器: 


# 建立 SVM 模 型 

params = {'kernel': 'rbf', 'probability': True, 'class weight': 'auto'} 
classifier = SVC(**params) 

classifier.fit(xX, y) 


(4) 现在 就 可 以 进行 交叉 验证 了 : 





# 交叉 验证 
from sklearn import cross_validation 


accuracy = cross_validation.cross_val_ score(classifier., 
xX, y, scoring='accuracy', CVv=3) 
print "Accuracy of the classifier: " + str(round(100*accuracy.mean(), 2)) + "%" 


(5) 用 一 个 新 的 数据 点 测试 SVM: 


# 对 单一 数据 示例 进行 编码 测试 

IinBut. date ss. TueSsSday™,. Loa3ONO0. .21 23] 
input_data_encoded = [-1] * len(input_data) 
SOUnt zs :0 

for i,item in enumerate (input_data): 
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if item.isdigit(): 


input_data_encoded[i] = int (input_ datal[lil]) 

else: 
input_data_encoded[i] = int(label encoder[count].transform(input_datal[i])) 
Count SCoUunt,AF/ 汪 


input_data_encoded = np.array (input_data_encoded) 


# 为 特定 数据 点 预测 并 打印 输出 结果 
output_class = classifier.predict (input_data_encoded) 
print "Output class:", label encoder[-1].inverse transform(output_class) [0] 


(6) 运行 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 下 结 


Accuracy of the classifier: 89.88% 
Output class: event 


(7) 如 果 用 building_event_multiclass.txt 文 件 代 替 building_event_binary.txt 文 件 作 为 输入 数据 文 
可 以 在 命令 行 工具 中 看 到 以 下 结果 : 


Accuracy of the classifier: 65.9% 
Output class: eventA 
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3.8 估算 交通 流量 























根据 相关 数据 预测 交通 流量 是 SVM 的 一 个 有 趣 应 用 。 在 上 一 节 中 我 们 将 SVM 作为 一 个 分 类 
器 ， 下 面 将 它 作为 一 个 回归 咒 来 估算 交通 流量 。 





3.8.1 准备 工作 


我 们 将 要 使 用 的 数据 集 可 以 在 https://archive.ics.uci.edu/ml/datasets/Dodgerst+Loopt+Sensor 下 
载 。 这 个 数据 集 统计 了 洛杉矶 道奇 棒球 队 (Los Angeles Dodgers ) 进行 主场 比赛 期 间 ， 体 育 场 周 
边 马 路 通过 的 车 辆 数量 ， 存放 在 traffic_data.txt 文 件 中 。 每 一 行 都 包含 用 去 号 分 隔 的 字符 串 格式 ， 
如 下 所 示 : 


口 星期 

口 时 间 

口 对 手球 队 

口 棒球 比赛 是 否 正在 继续 
口 通行 汽车 的 数量 
































3.8.2 ”详细 步骤 
(1) 下 面 看 看 如 何 建立 SVM 回归 器 。 大 家 可 以 参考 traffic.py 文 件 中 的 源 代码 。 创 建 一 个 Python 





3.8 估算 交通 流量 65 





文件 ， 然 后 加 入 下 面 的 代码 : 
# 用 SVM 分 类 器 估算 交通 流量 


Import numpy as np 
from sklearn import preprocessing 
from sklearn.svm import SVR 


input_file = 'traffic_ data.txt' 


# 读 取 数 据 
X= [] 
count = 0 
with open(input_file, 'r') as f: 
for line in f.readqlines() : 
data. = Tine[isll) .Sltitky.") 
xX.append (data) 





X = np.array (X) 

我 们 把 数据 全 部 加 载 到 变量 x 中 。 
(2) 对 数据 进行 编码 : 

# 将 字符 事 转 换 成 数值 


label_encoder = [| 

X_encoded = np.empty (X.shape) 

for i,item in enumerate(X[0]): 
if item.isdigit(): 








XxX_encoded[:, i] = X[:, i] 
else: 
label_encoder.append (preprocessing.LabelEncoder()) 
XxX_encoded[:, i] = label encoder[-1] .fit_ transform(X[:, i]) 
xX = X_encoded[:, :-1] .astype (int) 
y = X_encoded[:, -1] .astype (int) 
(3) 用 径 向 基 函 数 创 建 并 训练 SVM 回归 咒 : 
# 建立 SVR 
params = {'kernel': 'rbf', 'C': 10.0, 'epsilon': 0.2} 


regressor = SVR(**params) 
regressor.fit (x, y) 


在 上 面 的 代码 中 , 参数 c 指 定 了 对 错误 分 类 的 惩罚 , 参数 epsilon 指 定 了 不 使 用 惩罚 的 限制 。 
(4) 用 交叉 验证 来 检查 回归 需 的 性 能 : 


# 交叉 验证 
import sklearn.metrics as sm 





y_pred = regressor.predict (x) 
print "Mean absolute error =", roundl(sm.mean absolute error(y, y_pred), 2) 
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(5) 在 一 个 数据 点 上 进行 测试 : 


# 对 单一 数据 示例 进行 编码 测试 
input_data = ['Tuesday', '13:35', 'San Francisco', 'yes'] 
input_data_encoded = [-1] * lenl(input_data) 
count, 三 0 
for i,item in enumerate(input_data): 
if item.isdigit(): 


input_data_encoded[i] = int (input_datal[i]) 

else: 
input_data_encoded[i] = int(label encoder[count].transform(input_data[i])) 
GUN 三 COuUNnt: 4 


input_data_encoded = np.array (input_data_encoded) 


# 为 特定 数据 点 预测 并 打印 分 类 结果 
print "Predicted traffic:", int(regressor.predict (input_data_ encoded) [0]) 


(6) 运行 代码 ， 可 以 在 命令 行 工 具 中 看 到 以 下 结 


Mean absolute error = 4.08 
Predicted traffic: 29 


第 4 章 








在 这 一 章 ， 我 们 将 介绍 以 下 主题 : 


口 用 k-means 算 法 聚 类 数据 

口 用 向 量 量化 ( vector quantization ) 压缩 图 片 

口 建立 均值 漂移 (Mean Shift ) 聚 类 模型 

口 用 凝聚 层次 聚 类 ( agglomerative clustering ) 进行 数据 分 组 
口 评价 聚 类 算法 的 聚 类 效果 

口 用 DBSCAN 算 法 自动 估算 集群 数量 

口 探索 股票 数据 的 模式 

口 建立 客户 细 分 模型 

















4.1 简介 





无 监督 学 习 是 一 种 对 不 含 标记 的 数据 建立 模型 的 机 器 学 习 范 式 。 到 目前 为 止 , 我 们 处 理 的 数 
据 都 带 有 某 种 形式 的 标记 , 也 就 是 说 , 学 习 算 法 可 以 根据 标记 看 到 这 些 数据 , 并 对 数据 进行 分 类 。 
但 是 , 在 无 监督 学 习 的 世界 中 , 我 们 没有 这 样 的 条 件 了 。 当 需要 用 一 些 相似 性 指标 对 数据 集 进行 























分 组 时 ， 就 会 用 到 这 些 算 法 了 。 


最 常见 的 无 监督 学 习 方 法 就 是 聚 类 , 你 一 定 对 这 个 词 耳 熟 能 详 。 当 需要 把 无 标记 的 数据 分 成 
儿 种 集群 时 ,就 要 用 它 来 分 析 。 这 些 集群 通常 是 根据 某 种 相似 度 指 标 进行 划分 的 , 例如 欧 氏 距离 


( Euclidean distance )。 无 监督 学 习 广 泛 应 用 于 各 种 领域 ,如 数据 挖掘 、 医 学 影像 
计算 机 视觉 、 市 场 细 分 等 。 


4.2 ”用 k-means 算法 聚 类 数据 


k-means 算 法 是 最 流行 的 聚 类 算法 之 一 。 这 个 算法 常常 利用 数据 的 不 同属 怕 








、 股 票 市 场 分 析 、 





将 输入 数据 划分 


为 /组 。 分 组 是 使 用 最 优化 的 技术 实现 的 ， 即 让 各 组 内 的 数据 点 与 该 组 中 心 点 的 距离 平方 和 最 小 
化 。 如 果 你 对 k-means 算法 不 太 了 解 ， 可 以 在 http:/www.onmyphd.com/?p=k-means.clustering& 
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ckattempt=1 上 学 习 。 
详细 步骤 


(1) 本 节 的 完整 代码 已 经 放 在 kmeans.py 文 件 中 。 我 们 先 创建 一 个 新 的 Python 文件 ， 然 后 导入 
下 面 的 程序 包 : 


import numpy as np 

import matplotlib.pyplot as plt 
from sklearn import metrics 

from sklearn.cluster import KMeans 


import utilities 
(2) 加 载 输入 数据 ， 然 后 定义 集群 的 数量 。 我 们 将 使 用 data_multivar.txt 数据 文件 : 


data = utilities.load data('data _ multivar.txt') 





num_ clusters = 4 

(3) 我 们 需要 看 看 输入 数据 是 什么 样子 的 。 继 续 向 Python 文 件 中 加 入 下 面 的 代码 : 
plt.figure!() 

plt.scatter(data[:,0], data[:,1], marker='o', 

facecolors='none', edgecolors='k', s=30) 

x min, x max = min(data[:, 0]) - 1, max(data[:, 0]) + 1 
min,. Vmax = min(datal:y, 1]). = 1 max(datalb:, Ty 1 
plt.title('Input data') 

plt.xlim(x_ min, x_max) 

plt.ylim(y_min, y_max) 

plt.xticks(()) 

plt.yticks(()) 

运行 代码 ， 可 以 看 到 如 图 4-1 所 示 的 图 形 。 
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(4) 现在 可 以 训练 模型 了 。 先 初始 化 一 个 k-means 对 象 ， 然 后 训练 它 : 


kmeans = KMeans (init='k-means++', n_clusters=num clusters, n_ init=10) 
kmeans.fit (data) 


(5) 数据 训练 之 后 ， 我 们 需要 可 视 化 边界 。 继 续 向 Python 文 件 中 加 入 下 面 的 代码 : 


设置 网 格 数据 的 步 长 
step_size = 0.01 





画 出 边界 
x_min, x max = min(data[:, 0]) - 1, max(data[:, 0]) + 1 
y_min, y_max = min(data[:, 1]) - 1, max(data[:, 1]) + 1 


x_values, y_values = np.meshgrid(np.arange (x_min, x_max, step_size), np.arange(y_min, 
y_max, step_size)) 





# 预测 网 格 中 所 有 数据 点 的 标记 


predicted_ labels = kmeans.predict (np.c_[x_values.ravel(), y_values.ravel()]) 
(6) 我 们 已 经 通过 网 格 数 据 评估 了 模型 。 接 下 来 把 这 些 结果 都 画 出 来 ， 看 看 边界 线 的 布局 : 
# 画 出 结果 
predicted_ labels = predicted labels.reshape (x_values.shape) 
plt.figure!() 
plt ele) 
plt.imshow(predicted labels, interpolation='nearest', 
extent=(x_values.min(), x_values.max(), y_values.min(), y_values.max()), 


cmap=plt.cm.Paired, 
aspect='auto', origin='lower') 


plt.scatter(data[:,0], datal[l:,1], marker='o', 
facecolors='none', edgecolors='k', s=30) 


(7) 把 中 心 点 夯 在 图 形 上 : 


centroids = kmeans.cluster_centers_ 

plt.scatter (centroids[:,0], centroids[:,1], marker='o', s=200, linewidths=3, 
color='k', zorder=10, facecolors='black') 

x_min, x max = min(data[:, 0]) - 1, max(data[:, 0]) + 1 

y_min, y_max = min(data[:, 1]) - 1, max(data[:, 1]) + 1 

plt.title('Centoids and boundaries obtained using KMeans') 

plt.xlim(x_ min, x_max) 

plt.ylim(y_min, y_max) 

DltaRtieke (ty) 

plt.yticks(()) 

plt.show!() 


运行 代码 ， 可 以 看 到 如 图 4-2 所 示 的 图 形 。 










































































4.3 ”用 矢量 量化 压缩 图 片 


k-means 眼 类 的 主要 应 用 之 一 就 是 矢量 量化 。 简单 来 说 , 矢量 量化 就 是 “四 舍 五 和 人”( rounding 
off ) 的 N 维 版 本 。 在 处 理 数字 等 一 维 数据 时 ， 会 用 四 侈 五 人 技术 减少 存储 空间 。 例 如 ， 如 果 只 需 
要 精确 到 两 位 小 数 , 那么 不 会 直接 存储 23.73473572 ， 而 是 用 23.73 来 代替 。 如 果 不 关心 小 数 部 分 ， 
甚至 可 以 直接 存储 24， 这 取决 于 我 们 的 真实 需求 。 


同 理 ， 当 把 四 售 五 人 这 个 概念 推广 到 N 维 数据 时 ， 就 变 成 了 矢量 量化 。 当 然 ， 矢 量 量化 的 细 
节 很 多 ， 你 可 以 在 http://www.data-compression.com/vq.shtml 里 学 习 更 多 的 内 容 。 矢 量 量 化 被 广泛 
应 用 于 图 片 压缩 ， 我 们 用 比 原始 图 像 更 少 的 比特 数 来 存储 每 个 像素 ， 从 而 实现 图 像 图 片 。 





详细 步骤 


(1) 本 例 的 完整 代码 已 经 放 在 vector_quantization.py 文 件 中 。 下 面 看 看 它 是 如 何 实现 的 。 首 先 
需要 导 和 一些 程序 库 。 创 建 一 个 新 的 Python 文件 ， 然 后 加 入 下 面 的 代码 : 


import argparse 





import numpy as np 

from scipy import misc 

from sklearn import cluster 
import matplotlib.pyplot as plt 
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(2) 创建 一 个 函数 ， 用 来 解析 输入 参数 。 我 们 需要 把 图 片 和 每 个 像素 被 压缩 的 比特 数 传 进去 
作为 输入 参数 : 
def build arg_parser(): 


parser = argparse.ArgumentParser (description='Compress the input image \ 
using clustering') 


parser.add_argument ("--input-file", dest="input_file", required=True, 
help="Input image") 
parser.add argument ("--num-bits", dest="num bits", required=False, 


type=int, help="Number of bits used to represent each pixel") 
return parser 


(3) 再 创建 一 个 函数 ， 用 来 压缩 输入 的 图 片 : 


def compress_image (img, num clusters) : 
# 将 输入 的 图 片 转换 成 (样本 量 ， 特 征 量 ) ”数组 ， 以 运行 k-means 有 聚 类 算法 
xX = img.reshape((-1, 1)) 





# 对 输入 数据 运行 k-means 有 聚 类 


kmeans = cluster.KMeans(n_clusters=num clusters, n_init=4, random state=5) 
kmeans.fit (xX) 
centroids = kmeans.cluster_centers,_ .squeeze() 


labels = kmeans.labels_ 


# 为 每 个 数据 配置 离 它 最 近 的 中 心 点 ， 并 转变 为 图 片 的 形状 


input_image_compressed = np.choose(labels, centroids) .reshape (img.shape) 





return input_image_ compressed 
(4) 压缩 完 图 片 之 后 ， 我 们 需要 看 看 压缩 算法 对 图 片 质量 的 影响 。 下 面 定义 画图 函数 : 


def plot_image (img, title): 





vmin = img.min() 
vmax = img.max() 
plt.figure() 


plt.title(title) 
plt.imshow (img, cmap=plt.cm.gray, vmin=vmin, vmax=vmax) 


(5) 我 们 现在 已 经 准备 好 所 有 的 函数 了 。 下 面 定义 主 函 数 main， 它 可 以 把 输入 参数 传 进去 并 
进行 处 理 ， 然 后 提取 输出 图 片 : 














半生 name ==' main _': 
args = build arg_ parser() .parse_args() 
input_file = args.input_file 
num bits = args.num bits 





if not 1 <= num bits <= 8: 
raise TypeError('Number of bits should be between 1 and 8') 


num clusters = np.power(2, num bits) 


# 打印 压缩 率 








compression rate = round(100 * (8.0 - args.num bits) / 8.0, 2) 
print "\nThe size of the image will be reduced by a factor of", 8.0/args.num bits 
print "\nCompression rate = " + str(compression rate) + "%" 


(6) 加载 输入 图 片 : 
# 加 载 输入 图 上 


input_image = misc.imread(input_file, True) .astype (np.uint8) 





# 显示 原始 图 片 


plot_image (input_image, 'Original image') 


(7) 用 输入 的 参数 压缩 图 片 : 


# 压缩 图 片 

input_image_compressed = compress_image (input_image, num clusters) 

plot_image (input_image_compressed, 'Compressed image; compression rate = 
+ Str(compression rate) + '%$') 





plt.show!() 


(8) 现在 我 们 的 代码 已 经 准备 好 了 。 在 命令 行 工具 中 运行 下 面 的 命令 : 





$ python vector quantization.py --input-file flower image.jpg --num-bits 4 


输入 的 图 片 如 图 4-3 所 示 。 
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压缩 过 的 图 片 如 图 4-4 所 示 。 
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Compressed image; compression rate = 50.0% 
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(9) 我 们 把 每 个 像素 的 压缩 比特 数 降 到 2， 再 压缩 图 片 。 在 命令 行 工具 中 运行 下 面 的 命令 
$ Python vector quantization.py --input-file flower image.jpg --num-bits 2 


可 以 看 到 压缩 过 的 图 片 如 图 4-5 所 示 。 
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Compressed image; compression rate = 75.0% 
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(10) 如 果 把 每 个 像素 的 压缩 比特 数 降 到 1， 可 以 看 到 只 有 黑白 两 种 颜色 的 二 进 制图 像 。 运 和 








下 面 的 命令 : 


J 











$ Python vector quantization.py --input-file flower image.jpg --num-bits 1 
图 片 压缩 效果 如 图 4-6 所 示 。 
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Compressed image; compression rate = 87.5% 











4.4 建立 均值 漂移 聚 类 模型 


均值 漂移 是 一 种 非常 强大 的 无 监督 学 习 算 法 , 用 于 集群 数据 点 。 该 算法 把 数据 点 的 分 布 看 成 
是 概率 密度 函数 (probability-density function )， 和 希望 在 特征 空间 中 根据 函数 分 布 特征 找 出 数据 点 
的 “模式 ”( mode )。 这 些 “ 模 式 ” 就 对 应 于 一 群 群 局 部 最 密集 (local maxima ) 分 布 的 点 。 均 值 
漂移 算法 的 优点 是 它 不 需要 事先 确定 集群 的 数量 。 

假设 有 一 组 输入 点 , 我 们 要 在 不 知道 要 寻找 多 少 集群 的 情况 下 找到 它们 。 均值 漂移 算法 就 可 
以 把 这 些 点 看 成 是 服从 某 个 概率 密度 函数 的 样本 。 如 果 这 些 数 据点 有 集群 , 那么 它们 对 应 于 概率 
密度 函数 的 峰值 。 该 算法 从 一 个 随机 点 开始 , 逐渐 收敛 于 各 个 峰值 ,你 可 以 在 http://homepages.inf. 
ed.ac.uk/rbf/CVonline/LOCAL COPIES/TUZEL1/MeanShift.pdf 中 学 习 更 详细 的 内 容 。 




























































































详细 步骤 
(1) 本 例 的 完整 代码 已 经 放 在 mean_shift.py 文 件 中 。 我 们 看 看 它 是 如 何 实现 的 。 首 先 创建 一 个 
新 的 Python 文件 ， 然 后 导入 一 些 需 要 用 到 的 程序 包 : 





import numpy as np 
from sklearn.cluster import MeanShift, estimate bandwidth 


import utilities 
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(2) 从 data_ multivartxt 文 件 中 加 载 输入 数据 : 
# 从 输入 文件 加 载 数据 


xX = Utilities.loadq_dqatal('dqata_multivar.txt') 
(3) 通过 指定 输入 参数 创建 一 个 均值 漂移 模型 ; 


# 设置 带宽 参数 Pandwidth 
bandwidth = estimate_pbpandwidqth(X，dquantile=0.1，Dmn_samples=len(X) ) 


# 用 MeanShift 计 算 聚 类 
meanshift_ estimator = MeanShift (bandwidth=bandwidth, bin_ seeding=True) 


(4) 训练 模型 : 





Wi 





meanshift_estimator. fit (x) 

(5) 提取 标记 : 

labels - meanshift_estimator.labels_ 

(6) 从 模型 中 提取 集群 的 中 心 点 ， 然 后 打印 集群 数量 : 


centroids = meanshift estimator.cluster_ centers_ 
num clusters = len(np.unique (labels)) 





print "Number of clusters in input data =", num clusters 
(7) 把 集群 可 视 化 : 


# 画 出 数据 点 和 聚 类 中 心 
import matplotlib.pyplot as plt 
from itertools import cycle 


plt.figure!() 


# 为 每 种 集群 设置 不 同 的 标记 


markers = '.*xyV' 


(8) 迭代 数据 点 并 画 出 它们 : 


for i, marker in zip(range (num clusters), markers): 
# 画 出 属于 某 个 集群 中 心 的 数据 点 


plt.scatter(X[labels==i, 0], X[labels==i, 1], marker=marker, color='k') 


# 画 出 集群 中 心 

centroid = centroids[i] 

plt.plot (centroid[0], centroid[1], marker='o', markerfacecolor='k', 
markeredgecolor='k', markersize=15) 


plt.title('Clusters and their centroids') 
plt.show!() 


(9) 运行 代码 ， 可 以 看 到 如 图 4-7 所 示 的 图 形 。 
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4.5 用 凝聚 层次 聚 类 进行 数据 分 组 


在 介绍 凝聚 层次 聚 类 之 前 ， 我 们 需要 先 理 解 层 次 聚 类 (hierarchical clustering )。 层 次 聚 类 是 
组 聚 类 算法 , 通过 不 断 地 分 解 或 合并 集群 来 构建 树 状 集群 (tree-like clusters )。 层 次 聚 类 的 结构 
可 以 用 一 颗 树 表示 。 


层次 聚 类 算法 可 以 是 自 下 而 上 的 , 也 可 以 是 自 上 而 下 的 。 具体 是 什么 含义 呢 ? 在 自 下 而 上 的 
算法 中 ,每 个 数据 点 都 被 看 作 是 一 个 单独 的 集群 。 这 些 集群 不 断 地 合并 ,直到 所 有 的 集群 都 合并 
成 一 个 巨型 集群 。 这 被 称 为 凝聚 层次 聚 类 。 与 之 相反 的 是 ， 自 上 而 下 层次 的 算法 是 从 一 个 巨大 的 
集群 开始 , 不 断 地 分 解 , 直到 所 有 的 集群 变 成 一 个 单独 的 数据 点 。 你 可 以 在 http:/nlp.stanford.edu/ 
IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html 学 习 更 多 的 内 容 。 






















































































详细 步骤 


(1) 本 例 的 完整 代码 都 已 经 放 在 agglomerative.py 文 件 中 。 让 我 们 看 看 它 是 如 何 实现 的 。 首 先 
创建 一 个 新 的 Python 文件 ， 然 后 导入 一 些 需要 用 到 的 程序 包 : 

import numpy as np 

import matplotlib.pyplot as plt 


from sklearn.cluster import AgglomerativeClustering 
from sklearn.neighbors import kneighbors_graph 


(2) 定义 一 个 实现 凝聚 层次 聚 类 的 函数 : 
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def perform_clustering(X，connectivity，title，num clusters=3，1Linkage='ward' ) : 
plt.figure() 
model = AgglomerativeClustering (linkage=linkage, 
connectivity=connectivity, n_clusters=num clusters) 
model .fit (Xx) 


(3) 提取 标记 ， 然 后 指定 不 同 聚 类 在 图 形 中 的 标记 : 
# 提取 标记 
labels = model.labels_ 
# 为 每 种 集群 设置 不 同 的 标记 


markers = '.Vx' 
(4) 迭代 数据 ， 用 不 同 的 标记 把 聚 类 的 点 画 在 图 形 中 


for i, marker in zip(range (num clusters), markers): 
# 画 出 属于 某 个 集群 中 心 的 数据 点 
plt.scatter (Xx[labels==i, 0], X[labels==i, 1], s=50, 
marker=marker, color='k', facecolors='none') 


plt.title(title) 

(5) 为 了 演示 凝聚 层次 聚 类 的 优势 ， 我 们 用 它 对 一 些 在 空间 中 是 连接 在 一 起 、 但 彼此 却 非常 
接近 的 数据 进行 聚 类 。 我 们 希望 连接 在 一 起 的 数据 可 以 聚 成 一 类 , 而 不 是 在 空间 上 非常 接近 的 点 
眼 成 一 类 。 下 面 定义 一 个 函数 来 获取 一 组 呈 螺 旋 状 的 数据 点 : 

def get_spiral(t, noise_ amplitude=0.5): 

r=t 


区 
和 





return adqdq_ noise(x, y, noise_amplitude) 
(6) 在 上 面 的 函数 中 ， 我 们 增加 了 一 些 噪 声 ， 因 为 这 样 做 可 以 增加 一 些 不 确定 性 。 下 面 定义 
噪声 函数 : 


def add noise(x, y, amplitude): 
X = np.concatenatel( (x, y)) 
X += amplitude * np.random.randn(2, X.shape[1]) 
return X.T 


(7) 我 们 再 定义 一 个 函数 来 获取 位 于 玫瑰 曲线 上 的 数据 点 (rose curve, 又 称 为 rhodonea curve， 
极 坐 标 中 的 正弦 曲线 ): 


def get_rose(t, noise amplitude=0.02): 

# 设置 玫瑰 曲线 方程 ; 如果 变 量 k 是 夺 数 ， 那 么 曲线 有 kK 和 采花 准 ;， 如 果 k 是 偶数 ， 那 么 有 2k 杀 花 准 
-ee 
np.cos (k*t) + 
ett 
(tt) 





0.25 


< xn 
Il 


return adqd noise(x, y, noise_amplitude) 
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(8) 为 了 增加 多 样 性 ， 我 们 再 定义 一 个 hypotrochoid 函 数 ; 


def get_ hypotrochoid(t, noise_ amplitude=0): 
a By, hh ST0. 0 2 0 40 
Xe (a = Bb) TB GCOS(E) Fh * TB. Gost(a. = -Db) 
VY (a= "Bb) * MDsi(tty =~ lh hpueinl((ta.=b) 


/Bw 起 :) 

”i 
return adqd _ noise(x, y, 0) 

(9) 现在 可 以 定义 主 函数 main 了 了 : 

工 下 name =='_ main _': 

# 生成 样本 数据 

n_samples = 500 


np.random.seed (2) 
t = 2.5 * np.pi * (1 + 2 * np.random.rand(1, n_samples)) 





xX = get_spiral(t) 


# 不 考虑 螺旋 形 的 数据 连接 性 
connectivity = None 
perform clustering(X, connectivity, 'No connectivity') 


# 根据 数据 连接 线 创建 kK 个 临近 点 的 图 形 
connectivity = kneighbors_graph (XxX, 10, include_ self=False) 
perform clustering(X, connectivity, 'K-Neighbors connectivity') 


plt.show!() 


(10) 运行 代码 ， 可 以 看 到 如 图 4-8 所 示 的 图 形 ( 没有 用 任何 连接 特征 )。 
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图 4-8 
(11) 还 可 以 看 到 如 图 4-9 所 示 的 图 形 ( 使 用 连接 特征 )。 
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连接 在 一 起 的 数据 合成 一 组 ， 而 不 





从 图 4-8 和 图 4-9 中 可 以 看 出 ， 使 用 连接 特征 可 以 让 我 们 提 
是 按照 它们 在 螺旋 线 上 的 位 置 进行 聚 类 。 








[二 





4.6 ”评价 聚 类 算法 的 聚 类 效果 


到 目前 为 止 ,我 们 已 经 介绍 了 3 种 聚 类 算法 , 却 没 有 度量 过 它们 的 聚 类 效果 。 在 监督 学 习 中 ， 
可 以 用 预测 值 与 原始 值 进行 比较 来 计算 模型 的 准确 性 , 但 是 , 在 无 监督 学 习 中 , 我们 的 数据 没有 
标记 ， 因 此 ， 需 要 一 种 度量 聚 类 算法 的 方法 。 

度量 聚 类 算法 的 一 个 好 方法 是 观察 集群 被 分 离 的 离散 程度 。 这 些 集群 是 不 是 被 分 离 得 很 合 
理 ? 一 个 集群 中 所 有 的 数据 点 是 不 是 足够 紧密 ?需要 拟定 一 个 指标 来 衡量 这 种 特征 , 于是, 我 们 
采用 一 个 被 称 为 轮廓 系数 (Silhouette Coefficient ) 得 分 的 指标 。 该 得 分 是 为 每 个 数据 点 定义 的 ， 
它 的 定义 如 下 : 






























































得 分 = (x 一 y)/ max(x, y) 


其 中 , x 表示 在 同一 个 集群 中 某 个 数据 点 与 其 他 数据 点 的 平均 距离 ,y 表 示 某 个 数据 点 与 最 近 
的 男 一 个 集群 的 所 有 点 的 平均 距离 。 





详细 步骤 


(1) 本 例 的 完整 代码 已 经 放 在 performance.py 文 件 中 。 我 们 看 看 它 是 如 何 实现 的 。 首 先 创建 一 
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个 新 的 Python 文 件 ， 然 后 导入 一 些 需 要 用 到 的 程序 包 : 


import numpy as np 

import matplotlib.pyplot as plt 
from sklearn import metrics 

from sklearn.cluster import KMeans 


import utilities 
(2) 从 data_perf.txt 文 件 中 加 载 输入 数据 : 


# 加 载 数据 
data = utilities.load data('data perf.txt') 


(3) 为 了 确定 集群 的 最 佳 数 量 ， 我 们 迭代 一 系列 的 值 ， 找 出 其 中 的 峰值 : 








scores = [|] 
range_values = np.arange(2, 10) 


for i in range values: 
# 训练 模型 
kmeans = KMeans (init='k-means++', n_ clusters=1，Dn init=10) 
kmeans .fit (data) 
Score = metrics.silhouette_score(data, kmeans.labels., 
metric='euclidean', sample_ size=len (data)) 


print "\nNumber of clusters =", i 
print "Silhouette score =", score 


scores.append (score) 


(4) 画 出 图 形 并 找 出 峰值 


# 画 出 得 分 分 条 形 图 
plt.figure() 
plt.bar(range values, scores, width=0.6, color='k', align='center') 
plt.title('Silhouette score vs number of clusters') 








# 画 出 数据 

plt.figure!() 

plt. scatter(datals 0 rdatal,ll]y Colors'k:, S=307 marker=s'oO, facecolorssnone’) 
x min, x max = min(data[:, 0]) - 1, max(data[:, 0]) + 1 
y_min, y_max = min(data[:, 1]) - 1, max(data[:, 1]) + 1 
plt.title('Input data') 

plt.xlim(x_ min, x_max) 

plt.ylim(y_min, y_max) 

Dltextieket(t(}) 

blt ryticksC()) 

plt.show!() 


(5) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 4-10 所 示 的 结 
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Number of clusters = 
Silhouette Score = 0.529039717547 


Number of clusters = 3 
Silhouette Score = 0.557246639118 


Number of clusters = 4 
Silhouette Score = 0.583275751783 


Number of clusters = 5 
Silhouette Score = 0.658279690976 


Number of clusters = 


6 
Silhouette Score = 0.582358411948 


Number of clusters = 7 
Silhouette Score = 0.528610740989 


Number of clusters = 8 
Silhouette Score = 0.459759448983 





Number of clusters = 9 
Silhouette Score = 0.415953573837 





(6) 画 出 的 条 形 图 如 图 4-11 所 示 。 
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图 4-11 


(7) 从 图 4-11 中 可 以 看 出 ，5 个 集群 是 最 好 的 配置 ， 此 时 的 实际 图 形 如 图 4-12 所 示 。 
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可 以 从 图 4-12 中 直观 地 确认 数据 实际 上 有 5 个 集群 。 我 们 只 














是 采用 了 一 个 包含 5 个 不 同 集群 的 








小 数据 集 的 例子 。 通 过 轮廓 系数 判断 聚 类 效果 的 方法 ,对 那些 包含 不 容易 可 视 化 的 高 维 数据 的 大 








型 数据 集 非常 有 用 。 


4.7 用 DBSCAN 算法 自动 估算 集群 数量 











介绍 k-means 算 法 的 时 候 ， 必 须 把 集群 数量 当 作 一 个 输入 参数 。 在 真实 世界 中 ， 我 们 事先 并 
不 知道 这 个 信息 。 可 以 搜索 集群 数量 的 参数 空间 , 通过 轮廓 系数 得 分 找到 最 优 的 集群 数量 , 但 这 






































是 一 个 非常 耗 时 的 过 程 。 难 道 就 没有 一 种 方法 可 以 直接 找 出 集群 数量 吗 ? DBSCAN ( Density- 


Based Spatial Clustering of Applications with Noise， 人 带 噪 声 的 基于 密度 的 聚 类 方法 ) 应 运 而 生 。 








DBSCAN 将 数据 点 看 成 是 紧密 集群 的 若干 组 。 如 果 某 个 点 








属于 一 个 集群 , 那么 就 应 该 有 许多 





点 也 属于 同一 个 集群 。 该 方法 里 面 有 一 个 epsilon 参 数 ， 可 以 控制 这 个 点 到 其 他 点 的 最 大 距离 。 
如 果 两 个 点 的 距离 超过 了 参数 epsilon 的 值 ， 它 们 就 不 可 能 在 一 个 集群 中 。 你 可 以 在 
http://staffwww.itn.liu.se/~aidvi/courses/06/dm/Seminars2011/DBSCAN(4).pdf 学 习 更 多 的 内 容 。 这 种 
方法 的 主要 优点 是 它 可 以 处 理 异 常 点 。 如果 有 一 些 点 位 于 数据 稀 玖 区 域 , DBSCAN 就 会 把 这 些 点 








作为 异常 点 ， 而 不 会 强制 将 它们 放 入 一 个 集群 中 。 


详细 步骤 





(1) 本 例 的 完整 代码 已 经 放 在 estimate_clusters.py 文 件 中 。 我 们 看 看 它 是 如 何 实现 的 。 首 先 创 
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ni 
en 


一 个 新 的 Python 文件 ， 然 后 导入 一 些 需 要 用 到 的 程序 库 : 
from itertools import cycle 


import numpy as np 

from sklearn.cluster import DBSCAN 
from sklearn import metrics 

import matplotlib.pyplot as plt 





from utilities import load_ data2 


(2) 从 data_perf.txt 文 件 中 加 载 输入 数据 。 这 和 上 一 例 的 数据 文件 一 样 ， 这 样 可 以 帮助 我 们 用 
同样 的 数据 集 对 比 两 种 方法 : 


# 加 载 输入 数据 4 
input_file = 'data_ perf.txt' 


xX = load datal(linput_file) 


(3) 我 们 需要 找到 最 佳 集群 数量 参数 。 先 初始 化 一 些 变 


# 寻找 最 优 的 epsilon 参 数值 

eps_grid = np.linspace(0.3, 1.2, num=10) 
silhouette_scores = [] 
eps_best = eps_grid[0] 
silhouette_score max = 
model_best = None 
labels_best = None 


(4) 搜索 参数 空间 : 


for eps in eps_grid: 
# 训练 DBSCAN 有 聚 类 模型 
model = DBSCAN (eps=eps, min_ samples=5).fit(x) 





= 


# 提取 标记 
labels = model.labels_ 


(5) 每 次 迭代 ， 我 们 都 需 要 提取 性 能 指标 : 


# 提取 性 能 指标 
silhouette_ score = round(metrics.silhouette score(X, labels), 4) 
silhouette_scores.append(silhouette score) 


print "Epsilon:", eps, " --> silhouette score:", silhouette_ score 
(6) 我 们 需要 保存 指标 的 最 佳 得 分 和 对 应 的 epsilon 值 : 


if silhouette_ score > silhouette_ score max: 
silhouette_score max = Silhouette_score 
eps_best = eps 
model_best = model 
labels_best = labels 
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(7) 画 出 条 形 图 : 


# 画 出 条 形 图 

plt.figure!() 

plt.bar(eps_grid, silhouette _ scores, width=0.05, color='k', align='center') 
plt.title('Silhouette score vs epsilon') 


# 打印 最 优 参数 
print "\nBest epsilon =", eps_best 


(8) 把 最 优 的 模型 和 标记 保存 起 来 : 


# 最 优 参数 对 应 的 模型 与 标记 
model = model_best 
labels = labels_best 


(9) 有 些 数据 点 还 没有 分 配 集群 ， 我 们 需要 识别 它们 : 
# 检查 标记 中 没有 分 配 集群 的 数据 点 
offset = 0 


if -1 in labels: 
offset = 1 


(10) 提取 集群 的 数量 : 


# 数据 中 的 集群 数量 


num clusters = len(set (labels)) - offset 











print "\nEstimated number of clusters =", num clusters 


(11) 提取 核心 样本 : 
# 从 训练 模型 中 提取 核心 样本 的 数据 点 索引 


mask_core = np.zeros (labels.shape, dtype=np.bool) 
mask_core[model.core_ sample_ indices_] = True 


(12) 接 下 来 将 集群 结果 可 视 化 。 首 移 提取 独特 的 标记 集合 ， 然 后 分 配 不 同 的 标记 : 


# 画 出 集群 结果 





Ly 





plt.figure!() 
labels_uniqgq = set (labels) 
markers = cycle('vo’^s<>') 














(13) 用 迭代 法 把 每 个 集群 的 数据 点 用 不 同 的 标记 夯 出 来 : 


for cur_label, marker in zip(labels uniq, markers): 
# 用 黑 点 表示 未 分 配 的 数据 点 
下 尘 
marker = '.! 


# 为 当前 标记 添加 符号 
cur_mask = (labels == cur_label) 
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cur_data = X[cur_ mask & mask_corel] 
plt.scatter(cur_ data[:, 0], cur_data[:, 1], marker=marker, 
edgecolors='black', s=96, facecolors='none') 


Cur_data = X[cur_ mask & ~mask_corel] 
plt.scatter(cur_ data[:, 0], cur_data[:, 1], marker=marker, 
edgecolors='black', s=32) 


plt.title('Data separated into clusters') 
plt.show!() 


(14) 运行 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 4-13 所 示 的 结果 。 
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(15) 条 形 图 如 图 4-14 所 示 。 
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图 4-14 








(16) 用 实心 标注 的 未 被 分 配 的 数据 点 如 图 4-15 所 示 。 
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图 4-15 


4.8 探索 股票 数据 的 模式 


让 我 们 看 看 如 何 用 无 监督 学 习 进行 股票 数据 分 析 。 假 设 我 们 并 不 知道 股票 市 场 有 多 少 集群 ， 
因此 需要 用 一 种 近邻 传播 聚 类 ( Affinity Propagation ) 算法 来 集群 。 这 种 算法 会 找 出 数据 中 每 个 
集群 的 代表 性 数据 点 , 会 找到 数据 点 间 的 相似 性 度量 值 , 并 把 所 有 数据 点 看 成 潜在 的 代表 性 数据 
点 , 也 称 为 取样 器 (exemplar )。 更 多 内 容 可 参考 http://www.cs.columbia.edu/~delbert/docs/DDueck- 
thesis_small.pdf。 


本 例 将 分 析 在 特定 时 间 内 的 股票 市 场 变化 , 我 们 的 目标 是 根据 股价 的 波动 找 出 公司 行为 的 相 
似 性 。 














详细 步骤 
(D 本 例 的 完整 代码 已 经 放 在 stock_ marketpy 文 件 中 。 我 们 看 看 它 是 如 何 实现 的 。 首先 创建 一 
个 新 的 Python 文件 ， 然 后 导入 一 些 需要 用 到 的 程序 包 : 


import json 
import datetime 








import numpy as np 

import matplotlib.pyplot as plt 

from sklearn import covariance, cluster 

from matplotlib.finance import quotes_ historical yahoo_ochl as quotes_yahoo 
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(2) 我 们 需要 一 个 包含 所 有 符号 以 及 对 应 名 称 的 文件 ， 具 体 信息 在 symbol_map.json 文 件 中 。 
下 面 加 载 这 个 文件 : 


# 输入 符号 信息 文件 
symbol_file = 'symbol_ map.json' 


(3) 从 符号 映射 文件 中 读 取 数据 : 


# 加 载 符号 映射 信息 
with open(symbol_file, 'r') as f: 
symbol_dict = json.loads(f.read()) 


symbols, names = np.array (list (symbol_ dict.items())).T 
(4) 让 我 们 指定 分 析 的 时 间 段 。 将 用 这 个 时 间 段 作为 输入 数据 的 起 止 时 间 


# 选择 时 间 段 
start_date = datetime.datetime(2004, 4, 5) 


engd_date = datetime.datetime(2007, 6, 2) 
(5) 读 取 输入 的 数据 : 


quotes = [quotes_yahoo(symbol, start_date, end_ date, asobject=True) 
for symbol in symbols] 


(6) 由 于 需要 分 析 一 些 特征 点 ， 我 们 使 用 每 天 的 开盘 价 和 收盘 价 的 差异 来 分 析 数 据 : 


# 提取 开盘 价 和 收 瘟 价 
opening_quotes = np.array ([quote.open for quote in quotes]) .astype (np.float) 
closing_quotes = np.array ([quote.close for quote in quotes]).astype (np.float) 











# 计算 每 日 股价 波动 (收盘 价 -开盘 价 ) 


delta_quotes = closing quotes - opening_ quotes 
(7) 建立 一 个 协 方差 图 模型 : 


# 从 相关 性 中 建立 协 方差 图 模型 
edqge_model = covariance.GraphLassoCV() 


(8) 在 使 用 数据 之 前 先 对 它 进 行 标准 化 : 


# 数据 标准 化 
X = delta_ quotes.copy().T 
xX /= X.std(axis=0) 


(9) 用 数据 训练 模型 : 


# 训练 模型 
with np.errstate(invalid='ignore'): 
edge_model .fit (x) 


(10) 我 们 现在 已 经 准备 好 建立 聚 类 模型 了 : 


# 用 近邻 传播 算法 建立 聚 类 模型 


_, labels = cluster.affinity_propagation(edge model.covariance_ ) 





























num_labels = labels.max() 


# 打印 聚 类 结果 
for i in range(num labels + 1): 
print "Cluster", i+1, "-->", ', '.join(names[labels == i]) 


行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 4-16 所 示 的 结 





hi 


1 --> ConocoPhillips, Chevron, Total, Valero Energy, Exxon 

2 --> CVS, Walgreen 

3 --> IBM, Cisco, Microsoft, Texas instruments, Ford, HP, Dell 

4 --> Cablevision 

5 --> Pfizer, Apple, Caterpillar, Canon, Boeing, Toyota, SAP, Honda, Mitsubishi, Sony, Mc Donalds 
， Unilever, Wal-Mart 
Cluster 6 --> Kimberly-Clark, Colgate-Palmolive, Procter Gamble 
Cluster 7 --> Yahoo, Amazon 


Cluster 8 --> American express, Wells Fargo, Navistar, Bank of America, Time Warner, Ryder, Kellogg, Home 
Depot, AIG, Goldman Sachs, General Electrics, Marriott, Xerox, JPMorgan Chase, DuPont de Nemours, 3M, Co 

mcast 

Cluster 9 --> GlaxoSmithKline, Novartis, Sanofi-Aventis 

Cluster 10 --> Pepsi, Coca Cola 

Cluster 11 --> Raytheon, Lookheed Martin, General Dynamics, Northrop Grumman 

Cluster 12 --> Kraft Foods 





图 4-16 





4.9 建立 客户 细 分 模型 


无 监督 学 习 的 主要 应 用 场景 之 一 就 是 市 场 细 分 。 虽 然 在 我 们 开发 市 场 时 获取 的 数据 都 没有 标 
记 , 但 是 将 市 场 细 分 成 不 同类 型 至 关 重 要 , 这样 人 们 就 可 以 关注 各 自 的 市 场 类 型 了 。 市 场 细 分 对 
广告 投放 、 库 存 管理 、 配 送 策略 的 实施 、 大 众 传 媒 等 市 场 行为 都 非常 有 用 。 下 面 把 无 监督 学 习 应 
用 到 一 个 市 场 细 分 的 案例 上 ， 看 看 效果 如 何 。 





















































我 们 将 与 一 个 零售 商 和 他 的 客户 打交道 ,采用 https:/archive.ics.uci.edu/ml/datasets/Wholesale+ 
customers 的 数据 进行 分 析 。 数 据 表 里 包 含 了 不 同类 型 商品 的 销售 数据 ， 目 标 是 找到 数据 集群 ,从 
而 为 客户 提供 最 优 的 销售 和 分 销 策略 。 



































详细 步骤 


(本 例 的 完整 代码 已 经 放 在 customer _ segmentation.py 文 件 中 。 我 们 看 看 它 是 如 何 实现 的 。 首 
先 创建 一 个 新 的 Python 文件 ， 然 后 导入 一 些 需 要 用 到 的 程序 包 : 























import csV 


import numpy as np 

from sklearn import cluster, covariance, manifold 

from sklearn.cluster import MeanShift, estimate bandwidth 
import matplotlib.pyplot as plt 
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(2) 从 wholesale.csv 文 件 中 加 载 输入 数据 : 


# 从 输入 文件 加 载 数据 


input_file = 'wholesale.csV' 
file reader = csv.reader (open(input_file, 'rb'), delimiter=',') 
xX = [] 


for count, row in enumerate(file reader): 
if not count: 
names = row[2:] 
continue 


XxX.append([float (x) for x in row[2:]]) 


# 转换 为 numpy 数 组 
X = np.array (xX) 


(3) 和 前 面 的 内 容 一 样 ， 建 立 一 个 均值 漂移 聚 类 模型 : 


# 估计 带宽 参数 Pandwidth 
bandwidth = estimate_pbpandwidqth(X，dquantile=0.8，Dmn_samples=len(X) ) 


# 用 MeanShift 有 函数 计算 聚 类 
meanshift_estimator = MeanShift (bandwidth=bandwidth, bin_ seeding=True) 
meanshift_estimator.fit (Xx) 
labels = meanshift_ estimator.labels_ 
centroids = meanshift estimator.cluster_ centers_ 
num clusters = len(np.unique (labels)) 











print "\nNumber of clusters in input data =", num clusters 
(4) 打印 获得 的 集群 中 心 : 


print "\nCentroids of clusters:" 
print '\t'.join([name[:3] for name in names]) 
for centroid in centroids: 
DELint Nt joOLrm( Lettint (Xx) EOr. Xi Centrond].) 


(5) 把 两 个 特征 ( milk 和 groceries ) 的 聚 类 结果 可 视 化 ， 以 获取 直观 的 输出 : 


# 数据 可 视 化 





centroids_milk_ groceries = centroids[:, 1:3] 


# 用 centroids_milk groceries 中 的 坐标 画 出 中 心 点 

plt.figure() 

plt.scatter (centroids_ milk_ groceries[:,0], centroids milk groceries[:,1], 
s=100, edgecolors='k', facecolors='none') 


offset = 0.2 
plt.xlim(centroids milk_ groceries[:,0] .min() - offset * 
centroids milk_ groceries[:,0] .ptp(), 
centroids_ milk groceries[:,0] .max() + offset * 
centroids_ milk groceries[:,0] .ptp(),) 
plt.ylim(centroids milk groceries[:,1] .min() - offset * 
centroids_ milk groceries[:,1] .ptp(), 
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centroids _ milk _ groceries[:,1] .max() + offset * 
centroids milk groceries[:,1] .ptp()) 


plt.title('Centroids of clusters for milk angd groceries') 
plt.show!() 


(6) 运行 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 4-17 所 示 的 结果 。 



































Number of clusters in input data 


Centroids of clusters: 

Fre Mil Gro Fro Del 
9632 4671 6593 2570 1248 
40204 46314 57584 5518 4241 
8565 4980 67298 131 1215 
32717 16784 13626 60869 5609 
22925 73498 32114 987 903 
112151 29627 18148 16745 8550 
16117 46197 92780 1026 2944 
36847 “43950 20176 36534 47943 





图 4-17 





(7) 如 图 4-18 所 示 描 绘 的 是 milk ( 牛奶 ) 和 groceries( 杂货 ) 两 个 特征 的 聚 类 中 心 ， 其 中 milk 
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构建 推荐 引擎 








在 这 一 章 ， 我 们 将 介绍 以 下 主题 : 


口 为 数据 处 理 构 建 函 数组 合 

口 构建 机 器 学 习 流 水 线 (pipeline ) 

口 寻找 最 近邻 

口 构建 一 个 KNN 分 类 央 

口 构建 一 个 KNN 回 归 需 

口 计算 欧 氏 距离 分 数 (Euclidean distance score ) 

口 计算 皮尔 逊 相 关系 数 (Pearson correlation score ) 
口 寻找 数据 集中 的 相似 用 户 

口 生成 电影 推荐 

















5.1 简介 



































推荐 引擎 是 一 个 能 预测 用 户 兴趣 点 的 模型 。 将 推荐 引擎 应 用 于 电影 语 境 时 , 便 成 了 一 个 电影 
推荐 引擎 。 我们 通过 预测 当前 用 户 可 能 会 喜欢 的 内 容 , 将 相应 的 东西 从 数据 库 中 筛选 出 来 ,这样 
的 推荐 引擎 可 以 有 助 于 将 用 户 和 数据 集中 的 合适 内 容 连 接 起 来 ,为 什么 推荐 引擎 这 么 重要 ?设想 
你 有 一 个 很 庞大 的 商品 目录 , 而 用 户 可 能 或 者 不 可 能 查找 所 有 的 相关 内 容 。 通 过 推荐 合适 的 内 容 ， 
可 以 增加 用 户 消 费 。 有 些 公司 ( 如 Netflix ) 严重 地 依赖 推荐 系统 来 保持 用 户 参 与 度 。 


推荐 引 敬 通常 用 协同 过 滤 (collaborative filtering ) 或 基于 内 容 的 过 滤 ( content-based filtering ) 
来 产生 一 组 推荐 。 两 种 过 滤 方 法 的 不 同 之 处 在 于 挖掘 推荐 的 方式 。 协同 过 滤 从 当前 用 户 过 去 的 行 
为 和 其 他 用 户 对 当前 用 户 的 评分 来 构建 模型 , 然后 使 用 这 个 模型 来 预测 这 个 用 户 可 能 感 兴趣 的 内 
容 ; 而 基于 内 容 的 过 滤 用 商品 本 身 的 特征 来 给 用 户 推荐 更 多 的 商品 , 商品 间 的 相似 度 是 模型 主要 
的 关注 点 。 本 章 将 重点 介绍 协同 过 滤 。 
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5.2 ”为 数据 处 理 构建 函数 组 合 


机 器 学 习 系 统 中 的 主要 组 成 部 分 是 数据 处 理 流 水 线 。 在 数据 被 输入 到 机 器 学 习 算 法 中 进行 训 
练 之 前 , 需要 对 数据 做 各 种 方式 的 处 理 , 使 得 该 数据 可 以 被 算法 利用 。 在 构建 一 个 准确 的 、 可 扩 
展 的 机 融 学 习 系统 的 过 程 中 , 拥有 一 个 健壮 的 数据 处 理 流水 线 非 常 重要 。 有 很 多 基本 的 函数 功能 
可 以 使 用 , 通常 数据 处 理 流水 线 就 是 这 些 基 本 函数 的 组 合 。 不 推荐 使 用 嵌 套 或 循环 的 方式 调用 这 
些 函 数 , 而 是 用 函数 式 编程 的 方式 构建 函数 组 合 。 接 下 来 介绍 如 何 组 合 这 些 函 数 来 形成 一 个 可 重 
用 的 函数 组 合 ， 本 节 将 创建 3 个 基本 函数 ， 并 介绍 如 何 将 其 组 合成 一 个 流水 线 。 









































详细 步骤 
(D 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 
import numpy as np 


(2) 定义 第 一 个 函数 ， 将 数组 的 每 一 个 元 素 加 3: 





def add3 (input_array): 
return map(lambda x: x+3, input_array) 


(3) 定义 第 二 个 函数 ， 将 数组 的 每 一 个 元 素 乘 以 2 : 


def mul2 (input_array): 
return map (lambda x: x*2, input_array) 


(4) 定义 第 三 个 函数 ， 将 数组 的 每 一 个 元 素 减 去 5: 











def sub5 (input_array): 
return map (lambda x: x-5, input_array) 


(5) 定义 一 个 函数 组 合 器 ， 将 这 些 函 数 作为 输入 参数 ， 一 个 组 合 函 数 。 这 个 组 合 函 数 基 
本 上 是 输入 函数 按 序 执行 的 一 个 函数 : 


def function composer (*args): 
return reduce(lambda f, g: lambda x: f(g(x)), args) 


我 们 用 reduce 函 数 依次 执行 所 有 函数 ， 也 就 是 将 所 有 的 输入 函数 合并 。 
(6) 接 下 来 可 以 做 函数 组 合 了 。 首 先 定义 一 些 数据 和 一 组 操作 : 





于 生 name =='_ main 
arr = np.array ([2,5,4,7]) 





print "\nOperation: add3 (mul2 (sub5 (arr)))'" 
(7) 如 果 用 常规 的 方法 ,我 们 依次 执行 函数 ， 代 码 如 下 : 


arrl = add3 (arr) 
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arr2. = maul2 (arrl) 
arr3 = sub5 (arr2) 
print "Output using the lengthy way:", arr3 








(8) 下 面 用 单行 代码 的 函数 组 合 器 实现 同样 的 功能 : 


func_composed = function composer (sub5, mul2, add3) 
print "Output using function composition:", func composed (arr) 


(9) 可 以 通过 上 面 的 方法 用 单行 代码 实现 函数 组 合 ， 但 是 其 表示 方式 是 能 套 的 和 不 可 读 的 ， 
而 且 也 是 不 可 重用 的 。 当 需要 再 次 用 到 这 组 操作 时 ， 需 要 重新 编写 : 



































print "\nOperation: sub5(add3 (mul2 (sub5 (mul2 (arr)))))\nOutput:", \ 
function composer (mul2, sub5, mul2, add3, sub5) (arr) 


人 


(10) 运行 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 5-1 所 示 的 输出 结 





Operation: add3(mul12(sub5(Carr))) 
Output using the lengthy way: [5, 11, 9, 15] 
Output using function composition: [5, 11, 9, 15] 


Operation: sub5(add3(mul2(sub5(mul2(arr))))) 
Output: [-10, 2, -2, 10] 





图 5-1 


5.3 ”构建 机 器 学 习 流水 线 


scikit-learn 库 中 包含 了 构建 机 器 学 习 流 水 线 的 方法 。 只 需要 指定 函数 ， 它 就 会 构建 一 个 组 合 
对 象 ， 使 数据 通过 整个 流水 线 。 这 个 流水 线 可 以 包括 诸如 预 处 理 、 特 征 选择 、 监 督 式 学 习 、 非 监 
督 式 学 习 等 函数 。 这 一 节 将 构建 一 个 流水 线 ， 以 便 输入 特征 向 量 、 选 择 最 好 的 k 个 特征 、 用 随机 
森林 分 类 器 进行 分 类 等 。 




















5.3.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 





from sklearn.datasets import samples_generator 

from sklearn.ensemble import RandomForestClassifier 

from sklearn.feature_ selection import SelectKBest, f_regression 
from sklearn.pipeline import Pipeline 


(2) 生成 一 些 示 例 数据 : 
# 生成 样本 数据 


X y = samples_generator.make_ classification( 
n_informative=4, n_features=20, n_redundant=0, random state=5) 
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这 一 行 代码 生成 了 一 个 20 维 的 特征 向 量 ， 因 为 这 是 一 个 默认 值 。 在 这 里 ， 你 可 以 通过 修改 
n_features 参 数 来 修改 特征 向 量 的 维 数 。 

(3) 建立 流水 线 的 第 一 步 是 在 数据 点 进一步 操作 之 前 选择 k 个 最 好 的 特征 。 这 里 设置 k 的 值 
为 10: 

# 特征 选择 器 


selector_k best = SelectKBest (f_regression, k=10) 

(4) 建立 流水 线 的 第 二 步 是 用 随机 森林 分 类 器 分 类 数据 : 

# 随机 森林 分 类 器 

classifier = RandomForestClassifier(n estimators=50, max_depth=4) 

(5) 接 下 来 可 以 创建 流水 线 了 。pipeline 方 法 允许 我 们 用 预定 义 的 对 象 来 创建 流水 线 : 

# 构建 机 器 学 习 流水 线 

pipeline classifier = Pipeline([('selector', selector k best), ('rf', classifier)]) 

还 可 以 在 流水 线 中 为 模块 指定 名 称 。 上 一 行 代 码 中 将 村 征 选择 需 命 名 为 selector， 将 随机 
森林 分 类 器 命名 为 rf。 你 也 可 以 任意 选用 其 他 名 称 。 


(6) 也 可 以 更 新 这 些 参数 ， 用 上 一 步 又 中 命名 的 名 称 设置 这 些 参 数 。 例 如 ， 如 果 希 望 在 特征 
选择 器 中 将 k 值 设置 为 6, 在 随机 和 森林 分 类 器 中 将 n_estimators 的 值 设置 为 25, 可 以 用 下 面 的 代 
码 实现 。 注 意 ， 这 些 变量 名 称 已 在 上 一 步骤 中 给 出 。 




















pipeline classifier.set params (selector k=6, rf_n estimators=25) 
(7) 接 下 来 训练 分 类 器 : 


# 训练 分 类 器 
Dipeline_classifier.fit(X，Yy) 


(8) 为 训练 数据 预测 输出 结 


# 预测 输出 结果 
prediction = pipeline classifier.predict (x) 
print "\nPredictions:\n", prediction 


(9) 评价 分 类 需 的 性 能 : 

# 打印 分 类 器 得 分 

print "\nScore:", pipeline classifier.score(Xx, y) 
(10) 还 可 以 查看 哪些 特征 被 选中 ， 并 将 其 打印 出 : 


# 打印 被 分 类 器 选中 的 特征 

features_status = pipeline classifier.named steps['selector'] .get_support() 
selecteqd_features = [] 

for count, item in enumerate (features_status) : 
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下 证 世 EI 
selected_ features.append (count) 


print "\nSelected features (0-indexed):", ', '.join([str(x) for x in 
selected_ features]) 


(11) 运行 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 5-2 所 示 的 输出 结果 。 











Score: 0.96 


Selected features (0-indexed): 4, 8, 11, 15, 17, 19 





图 5-2 


5.3.2 ”工作 原理 

选择 k 个 最 好 的 特征 ， 其 好 处 在 于 可 以 处 理 较 小 维度 的 数据 ， 这 对 减 小 计算 复杂 度 来 说 非常 
有 用 。 选 择 k 个 最 佳 特 征 的 方式 是 基于 单 变 量 的 特征 选择 ， 选 择 过 程 是 先进 行 单 变量 统计 测试 ， 
然后 从 特征 向 量 中 抽取 最 优秀 的 特征 。 单 变量 统计 测试 是 指 只 涉及 一 个 变量 的 分 析 技术 。 






























































做 了 这 些 测试 后 ,向 量 空间 中 的 每 个 特征 将 有 一 个 评价 分 数 。 基 于 这 些 评价 分 数 ,， 选择 最 好 
的 K 个 特征 。 我 们 在 分 类 器 流水 线 中 执行 这 个 预 处 理 步 又 。 一 旦 抽取 出 上 个 特征 ， 一 个 / 维 的 特征 
向 量 就 形成 了 ， 可 以 将 这 个 特征 向 量 用 于 随机 森林 分 类 顺 的 输入 训练 数据 。 
































5.4 寻找 最 近邻 


最 近邻 模型 是 指 一 个 通用 算法 类 , 其 目的 是 根据 训练 数据 集中 的 最 近邻 数量 来 做 决策 。 接 下 
来 学 习 如 何 寻 找 最 近邻 。 



































详细 步骤 


(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 





import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.neighbors import NearestNeighbors 


(2) 创建 一 些 示例 的 二 维 数据 : 
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# 输入 数据 
Xs Darrayt[Ll. | 
Edyr 2 2 


(3) 我 们 的 目标 是 对 于 任意 给 定点 找到 其 3 个 最 近邻 。 定 义 该 参数 : 


# 寻找 最 近邻 的 数量 
num neighbors = 


(4) 定义 一 个 随机 数据 点 ， 这 个 数据 点 不 包括 在 输入 数据 中 : 


# 输入 数据 点 
TOU olnt een, 1 


(5) 看 看 数据 的 分 布 ， 并 将 其 画 出 : 


# 画 出 数据 点 
plt.figure!() 
plt satter(Z[l?d) 7 KLrrl] markers"O.;, B25 COLlGrs: RR ) 


(6) 为 了 寻找 最 近邻 ， 用 适合 的 参数 定义 一 个 NearestNeighpors 对 象 ， 并 用 输入 数据 训练 
该 对 象 : 


# 建立 最 近邻 模型 
knn = NearestNeighbors (n_neighbors=num neighbors，algorithm='bal1 tree').fit(x) 


(7) 计算 输入 点 与 输入 数据 中 所 有 点 的 距离 : 
distances, indices = knn.kneighbors (input_point) 
(8) 打印 出 ¢ 个 最 近邻 : 

# 打印 K 个 最 近邻 点 

print "\nk nearest neighbors" 


for rank, index in enumerate(indices[0][:num neighbors]): 
print str(rank+1) + " -->", X[index] 


indices 数 组 是 一 个 已 排序 的 数组 ， 因 此 仅 需 要 解析 它 并 打印 出 数据 点 。 
(9) 画 出 输入 数据 点 ， 并 突出 显示 Kk 个 最 近邻 : 


# 画 出 最 近邻 点 


3 


plt.figure!() 
plt .scatter(Z[L; 人] Ls mrkers"or; S20; 全 局 于 全 天 二 和 
plt.scatter (Xx[indices] [0] [:] [:,0], Xx[indices] [0] [:][:,1], 


marker='o', Ss=150, color='k', facecolors='none') 
plt.scatter (input_point[0], input_point[1], 
marker='x', SsS=150, color='k', facecolors='none') 





plt.show!() 


(10) 执行 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 5-3 所 示 的 输出 。 
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k nearest neighbors 
Ls He | 


2-->[3. 1.] 
:| 





图 5-3 
(11) 输入 数据 点 的 绘制 情况 如 图 5-4 所 示 。 

































































图 5-4 
(12) 如 图 5-5 所 示 的 输出 图 像 展 示 了 测试 数据 点 和 3 个 最 近邻 的 位 置 。 
beeO Figure 2 
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5.5 构建 一 个 KNN 分 类 器 


KNN (〈k-nearest neighbors) 是 用 k 个 最 近邻 的 训练 数据 集 来 寻找 未 知 对 象 分 类 的 一 种 算法 。 
如 果 和 希望 找到 未 知 数据 点 属于 哪个 类 , 可 以 找到 KNN 并 做 一 个 多 数 表决 。 接 下 来 学 习 如 何 构建 这 
样 的 分 类 器 。 





5.5.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import numpy as np 

import matplotlib.pyplot as plt 

import matplotlib.cm as cm 

from sklearn import neighbors, datasets 


from utilities import load data 


(2) 我 们 将 用 到 data_nn_classifier.txt 文 件 作为 输入 数据 。 加 载 该 输入 数据 : 


# 加 载 输入 数据 

input_file = 'data nn classifier.txt' 

data = load data(input_file) 

X, Yy = datal:,:-1],; datal:,-1].astype(np.int) 

前 两 列 包 含 输入 数据 ， 最 后 一 列 包 含 标签 ， 因 此 分 别 将 其 用 x 和 y 两 个 变量 表示 。 
(3) 将 输入 数据 可 视 化 : 

# 画 出 输入 数据 

plt.figure!() 

plt.title('Input datapoints') 

markers = '^sov<>hp' 


mapper = np.array ([markers[i] for i in y]) 
for i in range(X.shape[0]) : 
plt.scatter (Xx[i, 0], XxX[i, 1], marker=mapper[i], 
Ss=50, edgecolors='black', facecolors='none') 


迭代 所 有 的 数据 点 ， 并 用 合适 的 标记 区 分 不 同 的 类 。 
(4) 为 了 构建 分 类 器 ， 需 要 指定 我 们 考虑 的 最 近邻 的 个 数 。 定 义 该 参数 如 下 : 


# 设置 最 近邻 的 个 数 
num neighbors = 10 


(5) 为 了 将 边界 可 视 化 ,需要 定义 一 个 网 格 ， 用 这 个 网 格 评 











< 


价 该 分 类 需 。 定 义 网 格 步 长 如 下 : 


定义 网 格 步 长 


# 
h 0.01 
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(6) 接 下 来 创建 KNN 分 类 器 并 进行 训练 : 
# 创建 ENN 分 类 器 模型 并 进行 训练 


classifier = neighbors.KNeighborsClassifier(num neighbors, weights='distance') 
classifier.fit (Xx, y) 


(7) 生成 一 个 网 格 来 画 出 边界 。 对 网 格 做 如 下 定义 : 


# 建立 网 格 来 画 出 边界 

Xmin，Xmax = X[:, 0] .min() - X[:, 0] .max() + 1 
Ymin, ymax = Xl 1] .min() = [sy smak() 兴工 
x_grid, y_grid = np.meshgrid(np.arange (x_min, x_max, h), 
np.arange(y_min, y_max, h)) 


(8) 评价 分 类 器 对 所 有 点 的 输出 : 
# 计算 网 格 中 所 有 点 的 输出 


predicted values = classifier.predict (np.c_[x_grid.ravel(), y_grid.ravel()]) 


(9) 将 其 画 出 : 5 


# 在 图 中 画 出 计算 结果 

predicted values = predicted values.reshape (x_grid.shape) 
plt.figure() 

plt.pcolormesh (x_grid, y_grid, predicted values, cmap=cm.Pastell) 


(10) 我 们 画 出 了 彩色 网 格 , 现在 要 将 训练 数据 点 覆盖 在 其 上 , 查看 这 些 点 与 边界 的 关系 在 哪里 : 
# 在 图 中 画 出 训练 数据 点 


for i in range(X.shape[0]) : 
plt.scatter (Xx[i, 0], X[i, 1], marker=mapper[il], 
s=50, edgecolors='black', facecolors='none') 


1, 
1, 














plt .xlim(x grid.min(), x_grid.max()) 
plt .ylim(y_grid.min(), y_grid.max()) 
plt .title('k nearest neighbors classifier boundaries') 


(11) 接 下 来 测试 数据 点 ， 查 看 分 类 需 能 否 准 确 分 类 。 定 义 并 画 出 它 : 


测试 输入 数据 点 

test datapoint = [4.5, 3.6 

plt .figure!() 

plt .title('Test datapoint') 

for i in range(X.shape[0]) : 

plt.scatter (Xx[i, 0], X[i, 1], marker=mapper[i], 
s=50, edgecolors='black', facecolors='none') 








plt.scatter(test_datapoint[0], test_ datapoint[1], marker='x', 
linewidth=3, s=200, facecolors='black') 


(12) 用 以 下 模型 提取 KNN: 


# 提取 KNN 分 类 结果 


dist, indices = classifier.kneighbors (test_datapoint) 
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(13) 画 出 KNN 并 突出 显示 


# 画 出 KNN 分 类 结果 
plt.figure!() 
plt.title('k nearest neighbors') 


for i in indices: 
plt.scatter (Xx[i, 0], X[i, 1], marker='o', 
linewidth=3, s=100, facecolors='black') 


plt.scatter(test_ datapoint [0], test_ datapoint[1], marker='x', 
linewidth=3, s=200, facecolors='black') 


for i in range(X.shape[0]) : 
plt.scatter (Xx[i, 0], X[i, 1], marker=mapper[i], 
Ss=50, edgecolors='black', facecolors='none') 





plt.show!() 
(14) 在 命令 行 工具 中 打印 分 类 器 输出 结果 : 
print "Predicted output:", classifier.predict (test_datapoint)[0] 


(15) 执行 代码 ， 第 一 幅 输 出 图 像 展示 了 输入 数据 的 分 布 ， 如 图 5-6 所 示 。 








全 |O1O| 十 | 后 | 贸 国 














图 5-6 
(16) 第 二 幅 输 出 图 像 展 示 了 用 KNN 分 类 器 获得 的 边界 ， 如 图 5-7 所 示 。 
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图 5-7 
(17) 第 三 幅 输 出 图 像 展示 了 测试 数据 点 的 位 置 ， 如 图 $-8 所 示 。 

















图 5-8 
(18) 第 四 幅 输 出 图 像 展示 了 10 个 最 近邻 的 位 置 ， 如 图 5-9 所 示 。 
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5.5.2 ”工作 原理 


KNN 分 类 器 存储 了 所 有 可 用 的 数据 点 , 并 根据 相似 度 指 标 来 对 新 的 数据 点 进行 分 类 。 这 个 相 
似 度 指标 通常 以 距离 函数 的 形式 度量 。 该 算法 是 一 个 非 参数 化 技术 , 也 就 是 说 它 在 进行 计算 前 并 
不 需要 找 出 任何 隐 含 的 参数 。 我 们 只 需要 选择 x 的 值 。 

一 旦 找 出 KNN ， 就 会 做 一 个 多 数 表决 。 一 个 新 数据 点 通过 KNN 的 多 数 表决 来 进行 分 类 。 这 
个 数据 点 会 被 分 到 和 KNN 最 常见 的 类 中 。 如 果 将 k 的 值 设置 为 1 ， 那 么 这 就 变 成 了 一 个 最 近邻 分 
类 需 , 在 该 分 类 器 中 , 将 数据 点 分 类 到 训练 数据 集中 其 最 近邻 所 属 的 哪 一 类 。 更 多 详细 内 容 可 查 
看 http://www.fon.hum.uva.nl/praat/manual/KNN _ classifiers 1 What is a kNN classifier .html。 









































5.6 构建 一 个 KNN 回归 器 

我 们 已 经 知道 如 何 用 KNN 算 法 构建 分 类 器 了 ， 下 面 用 KNN 算 法 构建 回归 器 。 接 下 来 学 习 如 
何 构建 KNN 回 归 器 。 
5.6.1 详细 步骤 

(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 ; 


import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import neighbors 
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(2) 生成 一 些 服从 正 态 分 布 的 样本 数据 : 


# 生成 样本 数据 

amplitude = 10 

num points = 100 

xX = amplitude * np.random.rand (num points, 1) - 0.5 * amplitude 


(3) 下 面 在 数据 中 加 入 一 些 噪声 来 引入 一 些 随 机 性 。 加 入 噪声 的 目的 在 于 测试 算法 是 否 能 忽 
略 噪声 ， 并 仍然 很 健壮 地 运行 函数 : 











# 计算 目标 并 添加 品 声 
y = np. 0 
y 0 . 


+= * (0.5 - np.random.rand(y.size)) 


(4) 将 数据 可 视 化 : 


# 画 出 输入 数据 图 形 

plt.figure() 

plt.scatter(X, y, s=40, c='k', facecolors='none') 
plt.title('Input data') 


(5) 我 们 在 上 面 生 成 了 一 些 数据 ， 并 针对 这 些 点 做 了 连续 函数 的 评价 。 接 下 来 定义 更 密集 的 网 
格 点 : 


# 用 输入 数据 10 倍 的 密度 创建 一 维 网 格 











x_values = np.linspace(-0.5*amplitude, 0.5*amplitude, 1l0*num points) [:, np.newaxis] 
定义 这 个 更 密集 的 网 格 点 ,因为 我 们 希望 针对 这 些 点 评价 回归 器 ,并 查看 它 和 荫 数 的 相似 程度 
(6) 定义 最 近邻 的 个 数 : 


# 定义 最 近邻 的 个 数 
n_neighbors = 8 


(7) 用 之 前 定义 的 参数 初始 化 并 训练 KNN 回 归 器 : 


# 定义 并 训练 回归 器 
knn_regressor = neighbors.KNeighborsRegressor (n_ neighbors, weights='distance') 
y_values = knn regressor.fit (XxX, y) .predict (x_values) 


(8) 将 输入 数据 和 输出 数据 交 秋 在 一 起 ， 以 查看 回归 絮 的 性 能 表现 : 


plt .figure() 

plt .scatter (XxX, y, s=40, c='k', facecolors='none', label='input data') 

plt .plot (x_values, y_values, c='k', linestyle='--', label='predicted values') 
plt .xlim(X.min() - 1, xXx.max() + 1) 

plt .ylim(y.min() - 0.2, y.max() + 0.2) 

plt .aopxis('tight') 

plt.legend() 

plt .title('K Nearest Neighbors Regressor') 

plt.show!() 











(9) 执行 代码 ， 第 一 幅 输 出 图 像 展 示 了 输入 数据 的 分 布 ， 如 图 5-10 所 示 。 
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5.6.2 ”工作 原理 


回归 器 的 目标 是 预测 连续 值 的 输出 。 这 个 例子 中 并 没有 固定 数量 的 输出 类 别 , 仅 有 一 组 实际 
输出 值 ， 我 们 希望 回归 咒 可 以 预测 未 知 数据 点 的 输出 值 。 这 个 例子 中 用 到 一 个 sinc 函 数 来 演示 
KNN 回 归顺 ， 该 函数 也 被 称 为 基本 正弦 函数 。sinc 函 数 的 定义 如 下 : 
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sinc(x)= sin()/x (x!=0) 
=1] (x=0) 








当 x 为 0 时 ,sinCO)/x 变 成 010 不 定式 , 因此 需要 计算 该 函数 在 x 无 限 趋 近 于 0 时 函数 的 极限 。 我 们 
用 到 了 一 组 值 做 训练 ， 并 且 定 义 了 一 个 更 密集 的 网 格 点 来 进行 测试 。 正 如 在 之 前 的 图 中 看 到 的 ， 
输出 曲线 接近 于 训练 输出 。 








5.7 计算 欧 氏 距离 分 数 


现在 已 经 有 了 充足 的 机 器 学 习 流 水 线 和 最 近邻 分 类 器 的 背景 知识 , 下 面 可 以 开始 推荐 引 警 的 
探讨 了 。 为 了 构建 一 个 推荐 引擎， 需要 定义 相似 度 指 标 ， 以 便 找到 与 数据 库 中 特定 用 户 相似 的 用 
户 。 欧 氏 距 离 分 数 就 是 一 个 这 样 的 指标 ,可 以 计算 两 个 数据 点 之 间 的 欧 几 里 得 距离 。 下 面 将 重点 
讨论 电影 推荐 引擎 。 接 下 来 学 习 如 何 计算 两 个 用 户 间 的 欧 几 里 得 分 数 。 














详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import json 
import numpy as np 


(2) 定义 一 个 用 于 计算 两 个 用 户 之 间 的 欧 几 里 得 分 数 的 函数 。 第 一 步 先 判断 用 户 是 否 在 数据 
库 中 出 现 : 


# 计算 user1 和 user2 的 欧 氏 距离 分 数 
def euclidean_ score(dataset, userl1, user2): 
if user1l not in dataset: 
raise TypeError('User ' + User1l + ' not present in the dataset') 























if user2 not in dataset: 
raise TypeError('User ' + USer2 + ' not present in the dataset') 


(3) 为 了 计算 分 数 ， 需 要 提取 两 个 用 户 均 评 过 分 的 电影 : 


# 提取 两 个 用 户 均 评 过 分 的 电影 
rated_by_both = {} 


for item in dataset [user1] : 
if item in dataset[user2]: 
rated_ by_both[item] = 1 


(4) 如 果 没 有 两 个 用 户 共同 评 过 分 的 电影 ， 则 说 明 这 两 个 用 户 之 间 没 有 相似 度 〈 至 少 根据 数 
据 库 中 的 评分 信息 无 法 计算 出 来 ): 


# 如 果 两 个 用 户 都 没 评 分 过 ， 得 分 为 0 
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if len(rated by_both) == 0: 
return 0 








(5) 对 于 每 个 共同 评分 ， 只 计算 平方 和 的 平方 根 , 并 将 该 值 归 一 化 , 使 得 评分 取 值 在 0 到 1 之 间 : 


squaregqd differences = [] 


for item in dataset [user1] : 
if item in dataset [user2]: 


squared_differences.append(np.square(dataset [user1] [item] - 
dataset [user2] [item])) 


return 1 / (1 + np.sqgqrt (np.sum(squared differences))) 


如 果 评 分 相似 , 那么 平方 和 的 差别 就 会 很 小 ， 因 此 评分 就 会 变 得 很 高 ,这 也 是 我 们 希望 指标 
达到 的 效果 。 


(6) 加 载 数据 文件 中 的 movie_ratings.json 文 件 : 


卫生 name = na 








data_file = 'movie ratings.json' 


with open(data_ file, 'r') as f: 
data = json.loads (f.read()) 


(7) 假定 两 个 随机 用 户 ,计算 其 欧 氏 距离 分 数 : 


userl = 'John Carson' 
user2 = 'Michelle Peterson' 


print "\nEuclidean score:" 
print euclidean _ score(data, userl1l, user2) 


(8) 运行 该 代码 ， 可 以 看 到 欧 氏 距离 分 数 显示 在 命令 行 工 具 中 。 


5.8 ”计算 皮尔 还 相关 系数 


欧 氏 距 离 分 数 是 一 个 非常 好 的 指标 ,但 它 也 有 一 些 缺 点 。 因 此 ,皮尔 逊 相关 系数 常用 于 推荐 
引 敬 。 接 下 来 学 习 如 何 计算 皮尔 逊 相关 系数 。 























详细 步骤 


(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import json 
import numpy as np 














(2) 接 下 来 定义 一 个 用 于 计算 两 个 用 户 之 间 的 皮尔 逮 相关 度 系数 的 函数 。 第 一 步 先 判断 用 户 
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是 否 在 数据 库 中 出 现 : 


# 计算 user1 和 user2 的 皮尔 逊 相 关系 数 
def pearson_score(dqataset，UuUser1Ll，user2) : 
if user1l not in dataset: 
raise TypeError('User ' + UsSerl + ' not present in the dataset') 





if user2 not in dataset: 
raise TypeError('User ' + USer2 + ' not present in the dataset') 


(3) 提取 两 个 用 户 均 评 过 分 的 电影 : 


# 提取 两 个 用 户 均 评 过 分 的 电影 
rated_by_both = {} 


for item in dataset [user1] : 
if item in dataset [user2]: 
rated_ by_both[item] = 1 


num ratings = lenl(rated by_both) 5 


(4) 如 果 没 有 两 个 用 户 共同 评 过 分 的 电影 ， 则 说 明 这 两 个 用 户 之 间 没 有 相似 度 ， 此 时 返回 0: 


# 如 果 两 个 用 户 都 没有 评分 ， 得 分 为 0 
if num ratings == 
return 0 


(5) 计算 相同 评分 电影 的 平方 值 之 和 : 


# 计算 相同 评分 电影 的 平方 值 之 和 
userl_sum = np.sum([dataset[userl] [item] for item in rated by_both]) 
user2_sum = np.sum([dataset[user2] [item] for item in rated by_both]) 


(6) 计算 所 有 相同 评分 电影 的 评分 的 平方 和 : 


# 计算 所 有 相同 评分 电影 的 评分 的 平方 和 

userl_squared_ sum = np.sum([Inp.square(dataset [user1] [item]) for item in 
rated_by_both]) 

user2_squared_sum = np.sum([Inp.square(dataset [user2] [item]) for item in 
rated_by_both]) 


(7) 计算 数据 集 的 乘积 之 和 : 


# 计算 数据 集 的 乘积 之 和 
product_sum = np.sum( [dataset [user1] [item] * Qataset [user2] [item] for item in 
rated_by_both]) 


(8) 计算 皮尔 逊 相关 系数 需要 的 各 种 元 素 : 


# 计算 皮尔 逊 相关 度 

Sxy = product_sum - (user1_sum * user2_sum / num ratings) 
SxxX = User1_sduared_sum - np.sdquare(user1_sum) / num ratings 
Syy = user2_sduared_sum - np.sdquare(user2_sum) / num ratings 
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(9) 考虑 分 母 为 0 的 情况 : 


i SXX * SOY. == "0: 
return 0 





(10) 如 果 一 切 正常 ， 返 回 皮 尔 逊 相关 系数 : 
return Sxy / np.sqrt (Sxx * Syy) 


(11) 定义 main 函 数 并 计算 两 个 用 户 之 间 的 皮尔 逊 相关 系数 : 





卫 芋 name nai 





data_file = 'movie ratings.json' 


with open(data_file, 'r') as f: 

data = json.loads (f.read()) 
userl = 'John Carson' 
user2 = 'Michelle Peterson' 


print "\nPearson score:" 
print pearson_ score(data, userl, user2) 


a 


(12) 运行 该 代码 ， 可 以 看 到 皮尔 还 相关 系数 显示 在 命令 行 工具 中 。 








5.9 寻找 数据 集中 的 相似 用 户 


构建 推荐 引擎 中 一 个 非常 重要 的 任务 是 寻找 相似 的 用 户 , 也 就 是 说 , 为 某 位 用 户 生成 的 推荐 
言 息 可 以 同时 推荐 给 与 其 相似 的 用 户 。 接 下 来 学 习 如 何 寻 找 相似 用 户 。 

















详细 步骤 


(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import json 
import numpy as np 


from pearson_ score import pearson score 

(2) 定义 一 个 函数 ， 用 于 寻找 与 输入 用 户 相 似 的 用 户 。 该 函数 有 3 个 输入 参数 : 数据 库 、 输 入 
用 户 和 寻找 的 相似 用 户 个 数 。 第 一 步 是 查看 该 用 户 是 否 包含 在 数据 库 中 。 如 果 用 户 已 经 存在 , 则 
需要 计算 该 用 户 与 数据 库 中 其 他 所 有 用 户 的 皮尔 逊 相关 系数 : 

# 寻找 特定 数量 的 与 输入 用 户 相 似 的 用 户 


def find_ similar users(dataset, user, num users) : 
if user not in dataset: 












































raise TypeError('User ' + user + ' not present in the dataset') 
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# 计算 所 有 用 户 的 皮尔 逊 相 关 度 


scores = np.array ([[x, Pearson_score(dqataset，user，XxX)] for x in dataset if user != 


X] ) 
(3) 将 这 些 得 分 按照 降序 排列 : 


# 评分 按照 第 二 列 排序 


scores_sorted = np.argsort (scores[:, 1]) 


# 评分 按照 降序 排列 


人 = scores_sorted[::-1] 
(4) 提取 出 k 个 最 高 分 并 返回 : 


# 提取 出 k 个 最 高 分 
top_k = scored_ sorted dec[0:num users] 








return scores[top_k] 


(5) 定义 main 函 数 ， 加 载 输入 数据 库 : 





王 皇 name =='_ main 
data_file = 'movie _ ratings.json,' 





with open(data_file, 'r') as f: 
data = json.loads (f.read()) 


(6) 我 们 希望 查找 3 个 与 Jonn carson 相 似 的 用 户 。 用 以 下 步 又 实现 








user = 'John Carson' 
print "\nUsers similar to " + user + ":\n" 
similar_ users = find_ similar users(data, user, 3) 


print "USerM eVtNVtSimi Larity SEOreN” 
for item in similar users: 
print item[0], '\t\t', round(float (item[1]), 2) 


(7) 运行 该 代码 ， 可 以 看 到 命令 行 工 具 中 显示 了 3 个 用 户 ， 如 图 5-12 所 示 。 





Users similar to John Carson: 


User Similarity score 


Michael Henry 
Alex Roberts 
Melissa Jones 





5.10 生成 电影 推荐 


至 此 , 我 们 已 经 创建 了 一 个 推荐 引擎 的 各 个 不 同 组 成 部 分 , 接 下 来 生成 一 个 实际 的 电影 推 
系统 。 本 节 将 用 到 前 面 各 节 中 构建 的 函数 来 构建 电影 推荐 引擎 ， 接 下 来 看 看 具体 如 何 实 现 。 





- 
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详细 步 又 
(1) 创建 一 个 Python 文 件 ， 导 入 以 下 程序 包 : 


import json 
import numpy as np 


from euclidean _ score import euclidean score 
from pearson_score import pearson_score 
from find_ similar users import fingd similar users 


(2) 定义 一 个 为 给 定 用 户 生 成 电影 推荐 的 函数 。 首 先 检查 该 用 户 是 否 存在 于 数据 库 中 : 


# 为 给 定 用 户 生成 电影 推荐 
def generate_ recommendations (dataset, user): 
if user not in dataset: 
raise TypeError('User ' + user + ' not present in the dataset') 


(3) 计算 该 用 户 与 数据 库 中 其 他 用 户 的 皮尔 逊 相关 系数 : 


total_scores = {} 
similarity_sums = {} 














for u in [x for x in dataset if x != User]: 
similarity_score = pearson score(dataset, user, u) 


if similarity_score <= 0: 
continue 


(4) 找到 还 未 被 该 用 户 评分 的 电影 : 


for item in [x for x in dataset[u] if xnot in dataset[user] or dataset [user] [x] 





0 
total_scores.update({item: dataset[ul][item] * similarity_score}) 
similarity_sums.update({item: similarity_score}) 


(5) 如 果 该 用 户 看 过 数据 库 中 所 有 的 电影 ， 那 就 不 能 为 用 户 推荐 电影 。 对 该 条 件 做 如 下 处 理 : 


if len(total_scores) == 0: 
return ['No recommendations possible'] 


(6) 有 了 皮尔 逊 相关 系数 列表 ， 下 面 生成 一 个 电影 评分 标准 化 列表 : 
# 生成 一 个 电影 评分 标准 化 列表 


movie ranks = np.array ([[total/similarity_sums[item], item] 
for item, total in total_ scores.items()]) 


(7) 对 皮尔 逊 相关 系数 进行 降序 排列 : 


# 根据 第 一 列 对 皮尔 逊 相关 系数 进行 降序 排列 


movie_ranks = movie ranks[np.argsort (movie_ranks[:，0])[::-1]] 


(8) 最 后 提取 出 推荐 的 电影 : 























序 运 行 名 
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# 提取 出 推荐 的 电影 
recommendations = [movie for _, movie in movie ranks] 


return recommendations 


(9) 定义 main 函 数 ， 加 载 数据 集 : 


if name ==' main _': 
data_file = 'movie ratings.json' 





CN 





with open(data_file, 'r') as f: 
data = json.loads (f.read()) 


(10) 为 Michael Henry 生 成 推荐 ; 





user = 'Michael Henry' 
print "\nRecommendations for " + user + ":" 
movies = generate_ recommendations (data, user) 
for i, movie in enumerate (movies) : 

print str(i+1) + '. ' + movie 


(11) 用 户 Jonn carson 看 过 所 有 电影 ， 因 此 在 为 他 推荐 电影 时 ， 

















结果 是 否 正确 : 
user = 'John Carson' 
print "\nRecommendations for " + USsSer + ":" 


movies = generate recommendations (data, user) 
for i, movie in enumerate (movies): 
print str(i+1) + '. ' + movie 


(12) 运行 该 代码 ， 可 以 在 命令 行 工具 中 看 到 如 图 5-13 所 示 的 结 





Recommendations for Michael Henry: 
1. Jerry Maguire 
2. Anger Management 


3. Inception 


Recommendations for John Carson: 
1. No recommendations possible 





图 5-13 





显示 0 推荐 


E 存 。 来 看 看 程 








分 析 文 本 数据 








在 这 一 章 ， 我 们 将 介绍 以 下 主题 


口 用 标记 解析 的 方法 预 处 理 数据 

口 提取 文本 数据 的 词 干 

口 用 词 形 还 原 的 方法 还 原文 本 的 基本 形式 
口 用 分 块 的 方法 划分 文本 

口 创建 词 袋 模型 ( bag-of-words model ) 

口 创建 文本 分 类 器 

口 识别 性 别 

口 分 析 句 子 的 情感 

口 用 主题 建 模 识别 文本 的 模式 











6.1 简介 


文本 分 析 和 NLP (Natural Language Processing， 自 然 语 言 处 理 ) 是 现代 人 工 智 能 系统 不 
可 分 割 的 一 部 分 。 计 算 机 擅长 于 用 有 限 的 多 样 性 来 理解 结构 死板 的 数据 。 然 而 ， 当 我 们 用 计算 
机 处 理 非 结构 化 的 自由 文本 时 ， 就 会 变 得 很 困难 。 开 发 NLP 应 用 程序 是 一 种 挑战 ， 因 为 计算 机 
很 难 理解 隐 含 的 概念 ， 而 且 语 言 交流 方式 也 有 很 多 细微 的 差异 。 这 些 差异 的 形式 可 以 是 方言 、 


语 境 、 倡 语 等 。 


为 了 解决 这 个 问题 ， 基 于 机 器 学 习 的 NLP 应 运 而 生 。 这 些 算 法 检测 文本 数据 的 模式 ， 以 便 可 
以 从 中 得 到 了 解 。 人 工 智能 公司 大 量 地 使 用 了 NLP 和 文本 分 析 来 推送 相关 结果 。NLP 最 常用 的 领 
域 包括 搜索 引擎 、 情 感 分 析 、 主 题 建 模 、 词 性 标注 、 实 体 识别 等 。NLP 的 目标 是 开发 出 一 组 算法 ， 
以 便 可 以 用 简单 的 英文 和 计算 机 交流 。 如 果 这 一 目标 实现 , 将 不 再 需要 程序 设计 语言 来 命令 计算 
机 执行 指令 。 这 一 章 将 主要 介绍 文本 分 析 ,， 以 及 如 何 从 文本 数据 中 提取 有 意义 的 信息 。 我 们 将 大 
量 用 到 Python 中 的 NLTK ( Natural Language Toolkit ) 包 。 在 进行 接 下 来 的 学 习 之 前 ， 先 确保 你 已 
经 安装 了 NLITK， 安 装 步 又 可 以 参考 http:/www.nltk.orgy/installhtml。 你 还 需要 安装 NLTK 数 据 ， 这 
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些 数据 中 包含 很 多 语 料 和 训练 模型 ， 这 也 是 文本 分 析 不 可 分 割 的 部 分 ， 安 装 步 又 可 以 参考 
phttp:/www.nltk.org/data.html。 


6.2 用 标记 解析 的 方法 预 处 理 数 据 


标记 解析 是 将 文本 分 割 成 一 组 有 意义 的 片段 的 过 程 。 这 些 片 段 被 称 作 标记 , 例如 可 以 将 一 段 
文字 分 割 成 单词 或 者 句子 。 根 据 手头 的 任务 需要 , 可 以 自 定义 将 输入 的 文本 分 割 成 有 意义 的 标记 。 
接 下 来 介绍 如 何 实现 这 样 的 标记 解析 。 





























详细 步骤 


(1) 创建 一 个 Python 文件 ， 在 文件 中 加 入 以 下 内 容 。 这 里 定义 了 一 些 用 于 分 析 的 示例 文本 : 





text = "Are you curious about tokenization? Let's see how it works! We need to analyze 
a Couple of sentences with punctuations to see it in action." 


(2) 接 下 来 做 句子 解析 。NLTK 提 供 了 一 个 句子 解析 器 ， 首 先 加 载 该 模块 : 
# 对 身子 进行 解析 


from nltk.tokenize import sent_tokenize 
(3) 对 输入 文本 运行 句子 解析 器 ， 提 取出 标记 : 
sent_tokenize_list = sent_tokenize(text) 
(4) 打印 出 句子 解析 结果 列表 : 


print "\nSentence tokenizer:" 
print sent_tokenize list 


(5) 单词 解析 在 NLP 中 是 非常 常用 的 。NLTK 附 带 了 几 个 不 同 的 单词 解析 器 。 先 从 最 基本 的 单 
词 解析 需 开 始 : 


# 建立 一 个 新 的 单词 解析 器 


from nltk.tokenize import word tokenize 














print "\nWord tokenizer:" 
print word_ tokenize (text) 


(6) NLTK 中 另外 一 个 可 以 使 用 的 单词 解析 器 叫 Punktwora, 它 以 标点 符号 分 割 文本 ,如 果 是 
单词 中 的 标点 符号 ， 则 保留 不 做 分 割 ; 


# 创建 一 个 带 标点 的 单词 解析 器 


from nltk.tokenize import PunktWordTokenizer 








punkt_word_ tokenizer = PunktWordTokenizer() 
print "\nPunkt word tokenizer:" 
print punkt_ word_ tokenizer.tokenize (text) 
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(7) 如 果 需 要 将 标点 符号 保留 到 不 同 的 句子 标记 中 ， 可 以 用 wordPunct 标 记 解 析 需 : 


# 创建 一 个 新 的 WordPunct 标 记 解 析 器 
from nltk.tokenize import WordPunctTokenizer 


word_punct_ tokenizer = WordPunctTokenizer () 
print "\nWord punct tokenizer:" 
print word punct_tokenizer.tokenize (text) 


(8) 全 部 代码 已 经 在 tokenizer.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 6-1 
所 示 的 输出 结果 。 





Sentence tokenizer: 


['Are you curious about tokenization?’, "Let's see how it works!”, 'We need to analyze a couple of senten 
ces with punctuations to see it in action.’'] 


Word tokenizer: 

| “You eurious about “tokerization A A Let Chow OPKS 
e'’, 'need’, 'to'’, 'analyze’, 'a'’, 'couple' ，'of ' ， 'sentences’, 'with’, "punctuations'， "to'， 'see’, ' 
ER 


Punkt word tokenizer: 

LAA yo "curious’, "about’. tokenisation®. 3? “Lob BDO0. "Io 4 

e'，'need' ，'to'，'analyze'，'a'， 'couple’, 'of’, 'sentences’, 'with’, 'punctuations’, 'to'’, 'see’, ' 
CO 


Word punct tokenizer: 

Re “you “eurious,, about “tokenization’, ?> "Letl, SSee se "how it, “workss EL 
;， "We’, 'need’, 'to', 'analyze’, 'a'’, "couple'， 'of’, 'sentences’, 'with’, 'punctuations’, 'to’, 'see’, ' 
;heh 





6.3 ”提取 文本 数据 的 词 干 


处 理 文本 文档 时 ， 可 能 会 碰 到 单词 的 不 同形 式 。 以 单词 “play” 为 例 ， 这 个 单词 可 能 以 各 种 
形式 出 现 , 例如 “play”“plays”“player”“playing” 等 ， 这 些 是 具有 同样 含义 的 单词 家 族 。 在 文 
本 分 析 中 , 提取 这 些 单词 的 原形 非常 有 用 ,， 它 有 助 于 我 们 提取 一 些 统计 信息 来 分 析 整 个 文本 。 词 
于 提取 的 目标 是 将 不 同 词 形 的 单词 都 变 成 其 原形 。 词 干 提取 使 用 启发 式 处 理 方法 截取 单词 的 尾 
部 ， 以 提取 单词 的 原形 。 接 下 来 介绍 如 何在 Python 中 完成 词 干 提 取 。 



































6.3.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


from nltk.stem.porter import PorterStemmer 
from nltk.stem.lancaster import LancasterStemmer 
from nltk.stem.snowball import SnowballStemmer 


(2) 定义 一 些 单词 来 进行 词 干 提取 : 
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words = ['table', 'probably', 'wolves', 'playing', 'is','dog', 'the', 'beaches', 
'grounded', 'dreamt', 'envision'] 


(3) 定义 一 个 稍 后 会 用 到 的 词 干 提取 天 列表 : 


# 对 比 不 同 的 词 干 提取 算法 
stemmers = ['PORTER', 'LANCASTER', 'SNOWBALL'] 


(4) 初始 化 3 个 词 干 提取 需 对 象 : 





stemmer_porter = PorterStemmer () 
stemmer_lancaster = LancasterStemmer () 
stemmer_snowball = SnowballStemmer ('english') 





(5) 为 了 以 整齐 的 表格 形式 将 输出 数据 打印 出 来 ， 需 要 设 定 其 正确 的 格式 : 


formatted row = '{:>16}' * (len(stemmers) + 1) 
print '\n', formatted_ row.format('WORD', *stemmers), '\n' 


(6) 迭代 列表 中 的 单词 ， 并 用 3 个 词 干 提 取 器 进行 词 干 提取 : 








for word in words: 
stemmed_ words = [stemmer_porter.stem(word), 


stemmer_lancaster.stem(word), stemmer_snowball.stem(word)] 
print formatted_ row.format (word, *stemmed words) 6 
(7) 全 部 代码 已 经 在 stemmer.py 文 件 中 给 出 。 运 行 该 代码 ， oe 令 行 工具 中 看 到 如 图 6-2 


所 示 的 输出 结果 。 从 图 6-2 中 可 以 看 出 ，Lancaster 词 干 提取 需 的 输出 结果 与 其 -他 词 干 提取 器 的 输 
出 结果 不 同 。 
































WORD PORTER LANCASTER SNOWBALL 


table tabl tabl 

probably probab1 probabl 
wolves 
playing 


is 

dog 

the 

beaches 
grounded ground ground ground 
dreamt dreamt dreamt dreamt 
envision envis envid envis 





6.3.2 ”工作 原理 


以 上 3 种 词 干 提取 算法 的 本 质 目 标 都 是 提取 出 词 干 ， 消 除 词 形 的 影响 。 它 们 的 不 同 之 处 在 于 
操作 的 严格 程度 不 同 。 观 察 输出 结果 可 以 看 到 ，Lancaster 词 干 提取 器 比 其 他 两 个 词 干 提取 器 更 严 
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格 。 就 严格 程度 来 说 ，Porter 词 干 提取 需 是 最 宽松 的 ， 而 Lancaster 词 干 提取 需 是 最 严格 的 。 从 
Lancaster 词 干 提取 需 得 到 的 词 干 往往 比较 模糊 ， 难 以 理解 。Lancaster 词 干 提取 算法 的 速度 很 快 ， 
但 是 它 会 减少 单词 的 很 大 部 分 ， 因 此 通常 会 选择 Snowball 词 干 提取 器 。 

















6.4 用 词 形 还 原 的 方法 还 原文 本 的 基本 形式 


词 形 还 原 的 目标 也 是 将 单词 转换 为 其 原形 , 但 它 是 一 个 更 结构 化 的 方法 。 在 前 一 节 中 , 可 以 
看 到 用 词根 还 原 得 到 的 单词 原形 并 不 是 有 意义 的 ， 例 如 单词 “wolves” 被 还 原 成 “wolv”， 还 原 
出 的 单词 根本 不 是 一 个 真实 的 单词 。 词 形 还 原 通过 对 单词 进行 词汇 和 语法 分 析 来 实现 , 因此 可 以 
圆满 解决 这 一 问题 。 词 形 还 原 变 形 词 的 结尾 ， 例 如 “ing” 或 “ed”， 然 后 返回 单词 的 原形 形式 ， 
这 个 原形 也 就 是 词根 (lemma )。 如 果 对 单词 “wolves” 做 词根 还 原 ， 可 以 得 到 “wolf” 的 输出 。 
输出 结果 取决 于 标记 是 一 个 动词 还 是 一 个 名 词 。 下 面 看 看 如 何 做 词 形 还 原 。 
















































































详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 
from nltk.stem import WordNetLemmatizer 
(2) 定义 一 组 单词 来 进行 词 形 还 原 : 


words = ['table', 'probably', 'wolves', 'playing', 'is', 
'dog', 'the', 'beaches', 'grounded', 'dreamt', 'envision'] 


(3) 比较 两 个 不 同 的 词 形 还 原 器 ，NOUN 词 形 还 原 器 和 VERB 词 形 还 原 髓 : 


# “对 比 不 同 的 词 形 还 原 器 
lemmatizers = ['NOUN LEMMATIZER', 'VERB LEMMATIZER'] 


(4) 基于 WordNet 词 形 还 原 需 创建 一 个 对 象 : 











lemmatizer wordnet = WordNetLemmatizer() 
(5) 为 了 以 整齐 的 表格 形式 将 输出 数据 打印 出 来 ， 需 要 设 定 其 正确 的 格式 : 


formatted row = '{:>24}' * (len(lemmatizers) + 1) 
print '\n', formatted_ row.format ('WORD', *lemmatizers), '\n' 


(6) 迭代 列表 中 的 单词 ， 并 用 词 形 还 原 器 进行 词 形 还 原 : 








for word in words: 
lemmatized words = [lemmatizer wordnet.lemmatize (word, pos='n'), 
lemmatizer_ wordnet.lemmatize (word, pos='v')] 
print formatted row.format (word, *lemmatized_ words) 


(7) 全 部 代码 已 经 在 lemmatizer.py 文 件 中 给 出 。 运 行 该 代码 , 可 以 看 到 如 图 6-3 所 示 的 输出 结果 。 
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观察 图 中 对 于 单词 “is” 的 词 形 还 原 ，NOUN 词 形 还 原 需 和 VERB 词 形 还 原 顺 的 还 原 结果 有 何不 同 。 


WORD 


table 
probably 
wolves 
playing 
is 


dog 

the 
beaches 
grounded 
dreamt 
envision 


6.5 用 分 块 的 方法 划分 文本 
分 块 是 指 基于 任意 随机 条 件 将 输入 文本 

















分 块 的 结果 不 需要 有 实际 意义 。 分 块 在 文本 分 析 中 经 常 使 用 。 当 处 理 非 常 大 的 文本 文档 时 ， 就 需 
要 将 文本 进行 分 块 ， 以 便 进行 下 一 步 分 析 。 在 这 一 节 


定数 目的 单词 。 


详细 步骤 





NOUN LEMMATIZER 








VERB LEMMATIZER 


table 
probably 
oP wolves 
playing play 
is be 

dog dog 

the the 
beach beach 
grounded ground 
dreamt dream 
envision envision 


table 
probably 


图 6-3 








分 割 成 块 ,与 标记 解析 不 同 的 是 ,分 块 没有 条 件 约束 ， 








(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import numpy as np 
from nltk.corpus import brown 





(2) 定义 一 个 将 文本 分 割 成 块 的 函数 。 第 一 步 是 将 文本 按照 空格 划分 : 





# 将 文本 分 割 成 块 

def splitter(data, num words): 
words = data.split(' ') 
outpub 1] 


(3) 初始 化 一 些 后 面 需要 用 到 的 变量 : 





I 


闻 





0 
[] 


Sr oun 
Cur_words 


(4) 对 这 些 单词 进行 迭代 : 


for word in words: 
Cur_words .append (word) 
Cur_count += 1 


P, 将 输入 文本 分 成 否 干 块 ， 每 块 都 包含 固 
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(5) 获得 的 单词 数量 与 所 需 的 单词 数量 相等 时 ， 重 置 相应 的 变量 : 


if cur_count == num words: 
output.append(' '.joinl(cur_ words)) 
CUrrwords =. \[] 
Cur Count, TO 


(6) 将 块 添加 到 输出 变量 列表 的 最 后 ， 并 返回 该 输出 变量 : 


output.append(' '. join(cur wordqs) ) 

















return output 


(7) 定义 一 个 main 函 数 ， 从 布朗 语料库 ( Brown corpus ) 加 载 数据 。 用 到 前 10 000 个 单词 : 





Tf name =='_ main 
# 从 布朗 语料库 加 载 数据 
data = ' '.join(brown.words()[:10000]) 


(8) 定义 每 块 包含 的 单词 数目 : 


# 每 块 包含 的 单词 数目 


num words = 1700 


(9) 定义 两 个 相关 变量 : 
chunks = [|] 
counter = 0 


(10) 对 这 个 文本 数据 调用 splitter 函 数 ， 并 将 其 打印 输出 : 
text_chunks = splitter(data, num words) 


print "Number of text chunks =", lenl(text_chunks) 


(11) 全 部 代码 已 经 在 chunking.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 生成 的 块 的 数目 被 打印 





在 命 令 行 工 具 中 > 并 且 块 的 数 目 应 该 是 6。 





6.6 创建 词 袋 模型 





如 果 需 要 处 理 包含 数 百 万 单词 的 文本 文档 , 需要 将 其 转化 成 某 种 数值 表示 形式 ,以 便 让 机 器 











信息 。 这 里 需要 用 到 词 袋 (bag-ofwords )。 词 袋 是 从 所 有 文档 的 所 有 单词 中 学 习 词 汇 的 模型 
习 之 后 ， 词 袋 通 过 构建 文档 中 所 有 单词 的 直方 图 来 对 每 篇 文档 进行 建 模 。 


























6.6.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 





用 这 些 数据 来 学 习 算 法 。 这 些 算 法 需要 数值 数据 ， 以 便 可 以 对 这 些 数 据 进 行 分 析 , 并 输出 有 用 的 





型 。 学 
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import numpy as np 
from nltk.corpus import brown 
from chunking import splitter 


(2) 定义 一 个 main 函 数 ， 从 布朗 语料库 加 载 输 入 数据 : 


if name ==' main _': 
# 布朗 语料库 读 取 数据 
data = ' '.join(brown.words()[:10000]) 


(3) 将 文本 数据 分 成 3 块 : 


# 每 块 包含 的 单词 数量 


num words = 2000 








chunks = [] 
counter = 0 


text_chunks = splitter(data, num words) 
(4) 创建 一 个 基于 这 些 文本 块 的 词典 : 


for text in text_chunks: 


chunk = {'index': counter, 'text': text} 
chunks .append (chunk) 6 
counter += 1 
(5) 下 一 步 是 提取 一 个 文档 - 词 矩 阵 。 文 档 - 词 矩 阵 记 录 了 文档 中 每 个 单词 出 现 的 频次 。 下 面 将 
用 scikit-learn 来 构建 这 样 的 和 矩阵, 因为 相 比 于 NLTK, scikit-learmm 有 更 简洁 的 完成 这 一 任务 的 方式 。 
导入 以 下 程序 包 : 
# 提取 文档 - 词 矩 阵 
from sklearn.feature extraction.text import CountVectorizer 
(6) 定义 对 象 ， 并 提取 文档 - 词 矩 阵 : 


Vectorizer = CountVectorizer (min_ df=5, max_df=.95) 
doc_term matrix = vectorizer.fit_ transform( [chunk['text'] for chunk in chunks]) 


(7) 从 vectorizer 对 象 中 提取 词汇 ， 并 打印 出 : 


vocab = np.array (vectorizer.get_feature names ()) 
print "\nVocabulary:" 
print vocab 


(8) 打印 文档 - 词 矩 阵 : 


print "\nDocument term matrix:" 
chunk_names = ['Chunk-0', 'Chunk-1', ‘Chunk-2', 'Chunk-3', 'Chunk-4°'] 


(9) 为 了 打印 成 表格 形式 ， 可 以 做 如 下 格式 设置 : 


formattedq_ row = '{:>12}' * (len(chunk names) + 1) 
print '\n', formatted row.format('Word', *chunk names), '\n' 











T 
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(10) 迭代 所 有 单词 ， 打 印 每 个 单词 出 现在 不 同 块 中 的 次 数 : 


for word, item in zip(vocab, doc term matrix.T): 
# “item” 是 压缩 的 稀 跌 和 矩阵 (csr_matrix) 数据 结构 
output = [str(x) for x in item.datal 
print formatted_ row.format (word, *output) 


(11) 全 部 代码 已 经 在 bag_of_words.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 命令 行 工 具 中 有 两 
部 分 输出 ， 第 一 部 分 输出 的 是 词汇 ， 如 图 6-4 所 示 。 














Vocabulary: 

[u'’about’ u'after’' u'against’ u'’aid’ u’all’ uU'also' Uu'an’ Uy'and’ u’'are’ 
uU'as' u'at’ u'be' u'been’ u’'before’ u’but’ uU'by' u’'committee’ Uy’'congress’ 
u'did’ u’'each’ u'education’ uy'first’ u’'for’ u'from’ u’'general’ yu’'had’ 
u'has’ u’have’ u'he’ u'health’ u'his’ u’'house’ uy'in’ u’increase’ uy’'is’ 


uy’'it’ u’last’ u’'made’ u'’make’ u'may’ u'’more’ u'no’ u'not’ u'of' uy’on’ 
u'one’ u’'only’ u'or’' u'other’ u'out’ u’over’ u'pay’' u’'program’ Uy’'proposed’ 
u'said’ u'similar’ u'state’ u'such’ u’take’ u'than’ u’'that’ u'the’ u’them’ 
u'there’ u’'they’ u’time’ Uy’'to’ u’'two’ u'under’ u'’up’ Uu'was’ 
u'were’ u’'what’ u'who’ uy’'will’ u’'with’ u'would’ u’'year' u’years’'] 





图 6-4 








(12) 第 二 部 分 输出 的 是 文档 - 词 矩 阵 ， 这 个 矩阵 非常 大 ， 这 里 仅 显 示 前 儿 行 ， 如 图 6-5 所 示 。 








Document term matrix: 
Word Chunk-0 Chunk-1 Chunk-2 Chunk-3 


about 
after 
against 
aid 

all 
also 

an 

and 

are 


eh 


ID 
Cu 
DDNDOD 上 上 P 一 四 一 呈 一 w 册 员 


Ww 
DVDw 一 一 一 


mb 一 DOD~o 上 oanmwmw 上 一 PN 一 


一 
开 让 wb 一 卜 上 上 mw 一 Pow 一 


避 一 mm@ow oo 


小 





Poomw、~Gmmwmmn 上 mmwhb 一 一 由 一 


=D 


committee 


EE 


图 6-5 


6.6.2 ”工作 原理 
以 下 面 的 句子 为 例 : 


口 句子 1: The brown dog is running. 
口 句子 2: The black dog is in the black room. 
口 句子 3: Running in the room is forbidden. 








以 上 3 句 话 中 有 以 下 9 个 唯一 的 单词 : 


口 the 

口 brown 

口 dog 

Dis 

DQ running 
口 black 

口 im 

DQ room 

口 forbidden 


我 们 利用 这 些 单词 在 每 个 句子 中 出 现 的 频次 将 每 个 句子 转换 成 直方 图 。 每 一 个 特征 向 量 均 是 
9 维 的 ， 因 为 唯一 单词 个 数 为 9: 








口 句子 1: [1 1 1 1 1,0,0, 0,0] 
口 句子 2: [2, 0,1, 1,0,2,1,1,0] 
口 句子 3: [0, 0, 0, 1, 1, 0, 1, 1, 1] 


提取 出 这 样 的 特征 向 量 后 ， 就 可 以 用 机 器 学 习 的 算法 对 这 些 向 量 进行 分 析 了 。 








6.7 创建 文本 分 类 器 


文本 分 类 的 目的 是 将 文本 文档 分 为 不 同 的 类 ,这 是 NLP 中 非常 重要 的 分 析 手 段 。 这 里 将 使 用 
一 种 技术 ， 它 基于 一 种 叫 作 tf-idf 的 统计 数据 ， 它 表示 词 频 - 逆 文档 频率 ( term frequency 一 inverse 
document frequency )。 这 个 统计 工具 有 助 于 理解 一 个 单词 在 一 组 文档 中 对 某 一 个 文档 的 重要 性 。 
它 可 以 作为 特征 向 量 来 做 文档 分 类 ， 你 可 以 在 http:/www.tfidf.com 中 找到 更 多 详细 介绍 。 


























6.7.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 
from sklearn.datasets import fetch 20newsgroups 


(2) 选择 一 个 类 型 列表 ， 并 且 用 词典 映射 的 方式 定义 。 这 些 类 型 是 加 载 的 新 闻 组 数据 集 的 一 
部 分 : 
Category_map = {'misc.forsale': 'Sales', 'rec.motorcycles': 'Motorcycles', 


'rec.sport.baseball': 'Baseball', 'sci.crypt': 'Cryptography', 
'sci.space': 'Space'} 





122 第 6 章 分 析 文 本 数据 








(3) 基于 刚刚 定义 的 类 型 加 载 训练 数据 : 


training_ data = fetch 20newsgroups (subset='train', categories=category_map.keys(), 
shuffle=True, random state=7) 


(4) 导入 特征 提取 需 : 


# 特征 提取 


from sklearn.feature extraction.text import CountVectorizer 


(5) 用 训练 数据 提取 特征 : 


T 





Vectorizer = CountVectorizer() 
XxX train termcounts = vectorizer.fit transform(training data.data) 














print "\nDimensions of training data:", X train termcounts.shape 
(6) 接 下 来 训练 分 类 器 。 这 里 将 用 到 多 项 式 朴素 贝 叶 斯 ( Multinomial Naive Bayes ) 分 类 器 : 
# 训练 分 类 器 


from Sklearn.naive_bayes import MultinomialNB 
from sklearn.feature extraction.text import TfidfTransformer 


(7) 定义 一 些 随 机 输入 的 句子 : 


input_data = [ 
"The curveballs of right handed pitchers tend to curve to the left", 
"Caesar cipher is an ancient form of encryption", 
"This two-wheeler is really good on slippery roads" 


] 
(8) 定义 tidf 变 换 顺 对 象 ， 并 训练 : 
# tf-idf 变 换 器 


tfidf_ transformer = TfidfTransformer!( 
XxX _ train tfidf = tfidf transformer.fit transform(X train termcounts) 


(9) 得 到 特征 向 量 后 ， 用 该 数据 训练 多 项 式 朴素 贝 叶 斯 分 类 融 : 
# 多 项 式 朴素 贝 叶 斯 分 类 器 


classifier = MultinomialNB() .fit (x train tfidf, training data. target) 
(10) 用 词 频 统计 转换 输入 数据 : 

XxX_input_ termcounts = vectorizer.transform(input_data) 

(11) 用 tf-idf 变 换 带 变换 输入 数据 : 

x_input_ tfidf = tfidf transformer.transform(Xx_input_ termcounts) 

(12) 用 训练 过 的 分 类 表 预 测 这 些 输入 句子 的 输出 类 型 : 


# 预测 输出 类 型 


predicted categories = classifier.predict (x_input_ tfidf) 
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(13) 打印 输出 : 

# 打印 输出 

for sentence, category in zipl(input_dqata，Ppredqictedq_categories) : 
print '\nInput:', sentence, '\nPredicted category:', \ 


category_map[training_data.target names[category]] 


(14) 全 部 代码 已 经 在 tfidf.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 6-6 所 
示 的 输出 结果 。 








Dimensions of training data: (2968, 40605) 


Input: The curveballs of right handed pitchers tend to curve to the left 
Predicted category: Baseball 


Input: Caesar cipher is an ancient form of encryption 
Predicted category: Cryptography 


Input: This two-wheeler is really good on slippery roads 
Predicted category: Motorcycles 





图 6-6 


6.7.2 ”工作 原理 


tfidf 技 术 常 用 于 信息 检索 领域 , 目的 是 了 解 文档 中 每 个 单词 的 重要 性 。 如果 想 要 识别 在 文档 
中 多 次 出 现 的 单词 ， 同时, 像 “is” 和 “be” 这 样 的 普通 词汇 并 不 能 真正 反映 内 容 的 本 质 ， 因 此 
仅 需 要 提取 出 具有 实际 意义 的 那些 单词 。 词 频 越 大 ， 则 表示 这 个 词 越 重要 ， 同 时 ， 如 果 这 个 词 经 
常 出 现 , 那么 这 个 词 的 词 频 也 会 增加 ， 这 两 个 因素 互相 平衡 。 提 取出 每 个 句子 的 词 频 ， 然 后 将 其 
转换 为 特征 向 量 ， 用 分 类 融 来 对 这 些 句子 进行 分 类 。 


词 频 (The term frequency, TF ) 表示 一 个 单词 在 给 定 文档 中 出 现 的 频次 。 由 于 不 同文 档 的 长 
度 不 同 , 这 些 频次 的 直方 图 看 起 来 会 相差 很 大 ,因此 需要 将 其 规范 化 ,使 得 这 些 频次 可 以 在 平等 
的 环境 下 进行 对 比 。 为 了 实现 规范 化 ,我们 用 频次 除 以 文档 中 所 有 单词 的 个 数 。 逆 文档 频率 
(inverse document frequency，IDF ) 表示 给 定单 词 的 重要 性 。 当 需要 计算 词 频 时 ， 假 定 所 有 单词 
是 同等 重要 的 。 为 了 抗衡 哪些 经 常 出 现 的 单词 的 频率 ， 需 要 用 一 个 系数 将 其 权重 变 小 。 我 们 需要 
计算 文档 的 总 数目 除 以 该 单词 出 现 的 文档 数目 的 比值 。 逆 文档 频率 对 该 比值 取 对 数值 。 


例如 ,“is” 或 “the” 等 简单 的 单词 在 各 个 文档 中 均 大 量 出 现 ， 但 是 这 并 不 意味 着 要 用 这 些 
词 作为 该 篇 文档 的 特征 。 同时 , 如 果 一 个 单词 仅 出 现 一 次 , 那 这 个 单词 也 不 是 十 分 有 意义 。 因 此 ， 
我 们 寻找 的 是 那些 出 现 了 一 定 次 数 , 但 不 太 频 繁 以 至 于 变 成 噪声 的 单词 。 tf-idf 值 的 计算 可 以 挑选 
出 符合 要 求 的 单词 , 并 且 可 以 用 于 分 类 文档 。 搜索 引擎 经 常用 tf-idf 工 具 来 对 搜索 结果 进行 相关 度 
排序 。 
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6.8 识别 性 别 


在 NLP 中 , 通过 姓名 识别 性 别 是 一 个 很 有 趣 的 任务 。 这 里 将 用 到 启发 式 方法 ， 即 姓名 的 最 后 
几 个 字符 可 以 界定 性 别 特征 。 例 如 ， 如 果 某 一 个 名 字 以 “la” 结 尾 ， 那么 它 很 有 可 能 是 一 个 女性 
名 字 ， 如 “Angela” 或 者 “Layla"。 另 外 ， 如 果 一 个 名 字 以 “im” 结 尾 ， 那 么 它 很 有 可 能 是 一 个 
男性 名 字 , 例如 “Tim” 或 者 “Jim”。 确定 需要 用 到 几 个 字符 来 确定 性 别 后 ， 可 以 来 做 这 个 实验 。 
接 下 来 介绍 如 何 识别 性 别 。 












































详细 步 又 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import random 

from nltk.corpus import names 

from nltk import NaiveBayesClassifier 

from nltk.classify import accuracy as nltk_ accuracy 


(2) 定义 一 个 用 于 提取 输入 单词 的 特征 的 函数 : 
# 提取 输入 单词 的 特征 


def gender_features (word, num letters=2): 
return {'feature': word[-num letters:].lower()} 


(3) 定义 main 函 数 ， 需 要 一 些 带 标记 的 训练 数据 : 








if name =='_ main 
# 提取 标记 名 称 
labeled names = ([(name, 'male') for name in names.words('male.txt')] + 
[(name, 'female') for name in names.words('female.txt')]) 





(4) 设置 随机 生成 数 的 种 子 值 ， 并 混合 搅乱 训练 数据 : 


random.seed (7) 
random.shuffle(labeled names) 


(5) 定义 一 些 输入 的 姓名 : 
input_names = ['Leonardo', 'Amy', 'Sam'] 
(6) 因为 不 知道 需要 多 少 个 末尾 字符 ， 这 里 将 这 个 参数 设置 为 1~5。 每 次 循环 执行 ， 都 会 截取 
相应 大 小 的 末尾 字符 个 数 : 


# 搜索 参数 空间 
for i in range(1, 5): 
print '\nNumber of letters:', i 
featuresets = [(gender_ features(n, i), gender) for (n, gender) in 
labeled_ names] 
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(7) 将 数据 分 为 训练 数据 集 和 测试 数据 集 : 

train_ set, test_set = featuresets[500:], featuresets[:500] 
(8) 用 朴素 贝 叶 斯 分 类 器 做 分 类 : 

classifier = NaiveBayesClassifier.train(train_set) 
(9) 用 参数 空间 的 每 一 个 值 评价 分 类 器 的 效果 


# 打印 分 类 器 的 准确 性 


print 'Accuracy ==>', str(100 * nltk_ accuracy (classifier, test_set)) +Stt('g') 























# 为 新 输入 预测 输出 结果 
for name in input_names: 
print name, '==>', classifier.classify (gender_features (name, i)) 


(10) 全 部 代码 已 经 在 gender_identification.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 命令 行 工 具 
中 如 图 6-7 所 示 的 输出 结果 。 


Number of letters: 1 
Accuracy ==> 76.6% 
Leonardo ==> male 
Amy ==> female 

Sam ==> male 





Number of letters: 2 
Accuracy ==> 80.2% 
Leonardo ==> male 
Amy ==> female 

Sam ==> male 


Number of letters: 3 
Accuracy ==> 78.4% 
Leonardo ==> male 


Amy ==> female 
Sam ==> female 


Number of letters: 4 
Accuracy ==> 71.6% 
Leonardo ==> male 
Amy ==> female 

Sam ==> female 





6.9 分析 句子 的 情感 


情感 分 析 是 NLP 最 受 欢 迎 的 应 用 之 一 。 情 感 分 析 是 指 确定 一 段 给 定 的 文本 是 积极 还 是 消极 的 
过 程 。 有 一 些 场景 中 ,我 们 还 会 将 “中 性 ”作为 第 三 个 选项 。 情 感 分 析 常 用 于 发 现 人 们 对 于 一 个 
特定 主题 的 看 法 。 情 感 分 析 用 于 分 析 很 多 场景 中 用 户 的 情绪 ， 如 营销 活动 、 社 交 媒 体 、 电 子 商务 
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6.9.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


import nltk.classify.util 
from nltk.classify import NaiveBayesClassifier 
from nltk.corpus import movie reviews 


(2) 定义 一 个 用 于 提取 特征 的 函数 : 


def extract_features (worgd_ list): 
return dict([(word, True) for word in word_ list]) 


(3) 我 们 需要 训练 数据 ， 这 里 将 用 NLTK 提 供 的 电影 评论 数据 : 


Tf name =='_ main _': 
# 加 载 积极 与 消极 评论 
positive_fileids = movie reviews.fileids('pos') 
negative_fileids = movie reviews.fileids('neg') 





(4) 将 这 些 评论 数据 分 成 积极 评论 和 消极 评论 : 
features_ positive = [(extract_features (movie reviews.words (fileids=[f])), 
'Positive') for f in positive fileids] 
features_ negative = [(extract_ features (movie reviews.words (fileids=[f])), 
'Negative') for f in negative fileids] 











ly 


(5) 将 数据 分 成 训练 数据 集 和 测试 数据 集 : 


# 分 成 训练 数据 集 (80%) 和 测试 数据 集 (20%) 

threshold_factor = 0.8 

threshold positive = int (thresholgd factor * len(features_ positive)) 
threshold negative = int (thresholgd factor * len(features_ negative)) 


(6) 提取 特征 : 


features_train = features positive[:threshold positive] + 
features_negative[:threshold negative] 

features_test = features positive[threshold positive:] + 
features_negative[threshold negative:] 

print "\nNumber of training datapoints:", len(features_ train) 

print "Number of test datapoints:", len(features_test) 


(7) 我 们 将 用 到 朴素 贝 叶 斯 分 类 器 。 定 义 该 对 象 并 训练 : 
# 训练 朴素 贝 叶 斯 分 类 器 


classifier = NaiveBayesClassifier.train(features_ train) 
print "\nAccuracy of the classifier:", nltk.classify.util.accuracy (classifier, 
features_test) 


(8) 该 分 类 器 对 象 包含 分 析 过 程 中 获得 的 最 有 信息 量 的 单词 。 通 过 这 些 单词 可 以 判定 哪些 可 
以 被 归 类 为 积极 评论 ， 哪 些 可 以 被 归 类 为 消极 评论 。 将 其 打印 出 来 : 
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print "\nTop 10 most informative words:" 
for item in classifier.most_informative_ features()[:10]: 
print item[0] 


(9) 生成 一 些 随 机 输入 句子 : 


# 输入 一 些 简单 的 评论 
input_reviews = [ 
"It is an amazing movie", 
"This is a dull movie. I would never recommend it to anyone.", 
"The cinematography is pretty great in this movie", 
"The direction was terrible and the story was all over the place" 


] 
(10) 在 这 些 输入 句子 上 运行 分 类 器 ， 获 得 预测 结 


print "\npredictions:" 

for review in input_reviews: 
print "\nReview:", review 
probdist = classifier.prob classify(extract_features (review.split())) 
pred_sentiment = probdist.max!() 


(11) 打印 输出 : 
print "Predicted sentiment:", pred_ sentiment GE 
print "Probability:", round(probdist.prob(pred_ sentiment), 2) 
(12) 全 部 代码 已 经 在 sentiment_analysis.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 命令 行 工具 中 
的 输出 结果 包括 3 个 部 分 。 第 一 个 部 分 是 准确 度 ， 如 图 6-8 所 示 。 














Number of training datapoints: 1600 
Number of test datapoints: 400 


Accuracy of the classifier: 0.735 





图 6-8 


(13) 第 二 部 分 输出 最 有 信息 量 的 单词 ， 如 图 6-9 所 示 。 











Top 10 most informative words: 
outstanding 

insulting 

vulnerable 

ludicrous 

uninvolving 


astounding 
avoids 
fascination 
animators 
affecting 





图 6-9 
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(14) 第 三 部 分 是 对 输入 句子 的 预测 列表 ， 如 图 6-10 所 示 。 


Predictions: 


Review: It is an amazing movie 
Predicted sentiment: Positive 
Probability: 0.61 


Review: This is a dull movie. I would never recommend it to anyone. 
Predicted sentiment: Negative 
Probability: 0.77 


Review: The cinematography is pretty great in this movie 
Predicted sentiment: Positive 
Probability: 0.67 


Review: The direction was terrible and the story was all over the place 
Predicted sentiment: Negative 
Probability: 0.63 





图 6-10 


6.9.2 ”工作 原理 


这 个 例子 将 用 NLTK 的 朴素 贝 叶 斯 分 类 器 进行 分 类 。 在 特征 提取 函数 中 ， 我 们 基本 上 提取 了 
所 有 的 唯一 单词 。 然 而 ，NLTK 分 类 央 需 要 的 数据 是 用 字典 的 格式 存放 的 ， 因 此 这 里 用 到 了 字典 
格式 ， 便 于 NLTK 分 类 器 对 象 读 取 该 数据 。 

将 数据 分 成 训练 数据 集 和 测试 数据 集 后 ， 可 以 训练 该 分 类 器 ， 以 便 将 句子 分 为 积极 和 消极 。 
如 果 查 看 最 有 信息 量 的 那些 单词 , 可 以 看 到 例如 单词 “outstanding” 表 示 积 极 评论 , 而 “insulting” 
表示 消极 评论 。 这 是 非常 有 趣 的 信息 ， 因 为 它 告诉 我 们 单词 可 以 用 来 表示 情绪 。 



































6.10 用 主题 建 模 识别 文本 的 模式 


主题 建 模 是 指 识别 文本 数据 隐藏 模式 的 过 程 , 其 目的 是 发 现 一 组 文档 的 隐藏 主题 结构 。 主 题 
建 模 可 以 更 好 地 组 织 文档 ， 以 便 对 这 些 文档 进行 分 析 。 主 题 建 模 是 NLP 研究 的 一 个 活跃 领域 ， 你 
可 以 在 http:/www.cs.columbia.edu/~blei/topicmodeling.html 查 看 更 多 介绍 。 本 节 将 用 到 gensim 库 ， 
在 进行 接 下 来 的 学 习 之 前 , 请 确保 你 已 经 安装 了 该 库 , 具体 安装 步骤 可 以 参考 https://radimrehurek. 
com/gensim/install.html。 



































6.10.1 详细 步骤 
(1) 创建 一 个 Python 文件 ， 导 入 以 下 程序 包 : 


from nltk.tokenize import RegexpTokenizer 
from nltk.stem.snowball import SnowballStemmer 
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from gensim import models, corpora 
from nltk.corpus import stopwords 


(2) 定义 一 个 函数 来 加 载 输入 数据 ， 本 例 将 用 到 本 书 提 供 的 data_topic_modeling.txt 文 本 文件 : 


# 加 载 输入 数据 
def load datal(input_file): 
data = [] 





with open(input_file, 'r') 


AS £3 


for line in f.readqlines() : 


data.append (linel[: 


return data 


(3) 定义 一 个 预 处 理 文本 的 类 。 


# 类 预 处 理 文本 
class Preprocessor (object): 
# 对 各 种 操作 进行 初始 化 
def _ init_ _ (self) : 
# 创建 正则 表达 式 解析 器 


-1]) 


这 个 预 处 理 吉 处理 相 应 的 对 象 ， 并 从 输入 文本 中 提取 相关 的 


self.tokenizer = RegexpTokenizer(r'\w+') 


(4) 我 们 需 i 在 分 析 过 程 中 可 以 将 这 些 停 用 词 排除 。 这 些 停 用 词 都 是 常用 6 


词 ， 例如 “ nn” “t e” “ig” 等 ， 
# 获取 停 用 词 列表 





self.stop_words_english = stopwords.words('english') 


(5) 定义 一 个 Snowball 词 干 提取 器 : 


# 创建 Snowball 词 干 提取 器 


self.stemmer = SnowballStemmer('english') 
(6) 定义 一 个 处 理 函数 ， 负 责 标记 解析 、 停 用 词 去 除 和 词 干 还 原 : 


# 标记 解析 、 移 除 停 用 词 、 词 干 提取 


def process (self, input_ text): 


# 标记 解析 
tokens = self.tokenizer.tokenize(input_text.lower()) 
(7) 从 文本 中 去 除 停 用 词 : 
# 移 除 停 用 词 
tokens_stopwords = [x for x in tokens if not x in self.stop_ words_english] 


(8) 对 标记 做 词 干 提取 : 


# 词 干 提取 


tokens_stemmed = [self.stemmer.stem(x) for x in tokens_stopwords] 
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(9) 返回 处 理 后 的 标记 : 
return tokens_stemmed 


(10) 定义 一 个 main 函 数 。 从 文本 文件 中 加 载 输入 数据 : 








卫生 name ==' main 
# 包含 输入 数据 的 文件 
input_file = 'data topic modeling.txt' 
# 加 载 数据 


data = load data(input_file) 
(11) 用 我 们 定义 的 类 定义 一 个 对 象 : 


# 创建 预 处 理 对 象 


preprocessor = Preprocessor() 


(12) 处 理 文件 中 的 文本 ， 并 提取 处 理 好 的 标记 : 


# 创建 一 组 经 过 预 处 理 的 文档 


processed tokens = [preprocessor.process (x) for x in datal 
(13) 创建 一 个 基于 标记 文档 的 词典 ， 用 于 主题 建 模 : 


# 创建 基于 标记 文档 的 词典 


dict_ tokens = corpora.Dictionary (processed_ tokens) 


(14) 用 处 理 后 的 标记 创建 一 个 文档 - 词 矩 阵 : 


# 创建 文档 - 词 矩 阵 
corpus = [dict_ tokens.doc2bow(text) for text in processed tokens] 
(15) 假定 文本 可 以 分 成 两 个 主题 。 我 们 将 用 隐 含 狄 利克 雷 分 布 (Latent Dirichlet Allocation ， 
LDA ) 做 主题 建 模 。 定 义 相关 参数 并 初始 化 LDA 模 型 对 象 : 
# 基于 刚刚 创建 的 语料库 生成 LDA 模 型 


Tun COBLEeS. 2 
num words = 4 














ldamodel = models.ldamodel .LdaModel (corpus, 
num topics=num topics, id2word=dict_tokens, passes=25) 


(16) 识别 出 两 个 主题 后 ， 可 以 看 到 它 是 如 何 将 两 个 主题 分 开 来 看 的 : 


print "\nMost contributing words to the topics:" 
for item in ldamodel.print_ topics (num topics=num topics, num words=num words): 
print "\nTopic", item[0], "==>", item[1] 


(17) 全 部 代码 已 经 在 topic_ modeling.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 命令 行 工具 中 的 
输出 结果 如 图 6-11 所 示 。 
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Most contributing words to the topics: 


Topic 6 ==> 0.049*need + 0.030*younger + 0.030*talent + 0.030*train 


Topic 1 ==> 0.064xneed + 0.063*order + 0.038xencrypt + 0.038xunderstand 





图 6-11 


6.10.2 ”工作 原理 


主题 建 模 通过 识别 文档 中 最 有 意义 、 最 能 表征 主题 的 词 来 实现 主题 分 类 。 这 些 单 词 往往 可 以 
确定 主题 的 内 容 。 之 所 以 使 用 正则 表达 式 ( regular expression ) 标记 器 ， 是 因为 只 需要 那些 没有 
标点 或 其 他 标记 的 单词 。 停 用 词 去 除 是 另 一 个 非常 重要 的 步骤 ,因为 停 用 词 去 除 可 以 减 小 一 些 常 
用 词 (例如 “is” 和 “the”) 的 噪声 和 干扰。 之后， 需要 对 单词 做 词 干 提取 ， 以 获得 其 原形 。 以 上 
所 有 步骤 均 被 打包 在 一 个 文本 分 析 工 具 的 预 处 理 模 块 中 。 在 本 例 的 代码 中 就 是 这 样 实现 的 ! 


本 例 用 到 了 隐 含 狄 利克 雷 分 布 技术 来 构建 主题 模型 。 隐 含 狄 利克 雷 分 布 将 文档 表示 成 不 同 主 
题 的 混合 ,这些 主题 可 以 “吐出 ”单词 。 这 些 “ 吐 出 ”的 单词 是 有 一 定 的 概率 的 。 隐 含 狄 利克 雷 
分 布 的 目标 是 找到 这 些 主题 。 隐 含 狄 利克 雷 分 布 是 一 个 生成 主题 的 模型 ， 该 模型 试 网 找到 所 有 主 
题 ,而 所 有 主题 又 负责 生成 给 定 主题 的 文档 ,你 可 以 在 http://blog.echen.me/2011/08/22/introduction- 
to-latent-dirichlet-allocation 中 找到 更 多 详细 介绍 。 

你 可 以 在 输出 结果 中 看 到 ,诸如 单词 “talent” 和 “train” 表 示 运 动 主题 ， 而 单词 “encrypt” 
表示 密码 主题 。 这 里 仅仅 试验 了 非常 小 的 文本 文件 , 在 这 样 小 的 文本 文件 中 ,， 有 一 些 单词 可 能 看 
起 来 不 那么 相关 。 显 然 ， 如 果 你 用 更 大 的 数据 集 来 运行 该 程序 ， 精 确 度 会 更 高 。 

































































































































































语音 识别 








在 这 一 音 ， 我 们 将 介绍 以 下 主题 : 


口 读 取 和 绘制 音频 数据 

口 将 音频 信号 转换 为 频 域 
口 自 定 义 参 数 生成 音频 信和 号 
口 合成 音乐 

口 提取 频 域 特征 
口 创建 隐 马 尔 科 夫 模 型 
口 创建 一 个 语音 识别 器 




















7.1 简介 


语音 识别 是 指 识别 和 理解 口语 的 过 程 。 输 入 音频 数据 , 语音 识别 器 将 处 理 这 些 数据 ， 从 中 提 
取出 有 用 的 信息 。 语 音 识别 有 很 多 实际 的 应 用 ,例如 声音 控制 设备 、 将 语音 转换 成 单词 、 安 全 系 
统 等 。 

自然 中 的 声音 信号 多 种 多 样 。 同 一 种 语言 中 也 有 很 多 不 同 的 语音 。 语 音 中 有 很 多 不 同 的 元 素 ， 
例如 语言 、 情 绪 、 语 调 、 噪 声 、 口 音 等， 我 们 很 难 定义 一 组 构成 语音 的 规则 。 尽 管 语音 有 这 人 么 多 
变量 ， 人 类 仍然 可 以 很 轻松 地 理解 这 些 。 现 在 ， 我 们 和 希望 机 需 也 能 以 同样 的 方式 理解 语音 。 

在 过 去 的 儿 十 年 里 , 研究 者 们 研究 了 语音 的 各 个 方面 ,例如 识别 说 话 者 、 理 解 单词 、 识 别 口 
音 、 翻 译 语音 等 。 在 所 有 的 这 些 任 务 中 ,自动 语音 识别 成 为 很 多 研究 者 重点 关注 的 方向 。 在 这 一 
章 中 ， 我 们 将 学 习 如 何 构建 一 个 语音 识别 器 。 
































7.2” 读 取 和 绘制 音频 数据 


本 节 将 介绍 如 何 读 取 音频 文件 并 将 该 信号 进行 可 视 化 展现 。 这 是 一 个 好 的 开始 , 可 以 让 我 们 
很 好 地 理解 音频 信号 的 基本 结构 ,在 开始 之 前 ,需要 理解 音频 文件 是 实际 音频 信号 的 数字 化 形式 ， 
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实际 的 音频 信号 是 复杂 的 连续 波形 。 为 了 将 其 保存 成 数字 化 形式 , 需要 对 音频 信号 进行 采样 并 将 
其 转换 成 数字 。 例 如 ， 语 音 通常 以 44100 Hz 的 频率 进行 采样 ， 这 就 意味 着 每 秒 钟 信号 被 分 解 成 
44 100 份 ,然后 这 些 抽样 值 被 保存 。 换 句 话 说， 每 隔 1/44100 s 都 会 存储 一 次 值 。 如 果 采 样 率 很 高 ， 
用 媒体 播放 器 收听 音频 时 ， 会 感觉 到 信号 是 连续 的 。 




















详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


Import numpy as np 
import matplotlib.pyplot as plt 
from scipy.io import wavfile 


(2) 使 用 wavfile 包 从 input_read.wav 中 读 取 音频 文件 : 


# 读 取 输入 文件 


sampling_freq, audio = wavfile.read('input_read.wav') 
(3) 打印 这 个 信和 号 的 相关 参数 : 


# 打印 参数 


print '\nShape:', audio.shape 

print 'Datatype:', audio.dtype 

print 'Duration:', round(audio.shapel[0] / float(sampling_freq), 3), 'seconds' 

(4) 该 音频 信号 被 存储 在 一 个 16 位 有 符号 整 型 数据 中 。 标 准 化 这 些 值 ; 





# 标准 化 数值 


audio = audio / (2.**15) 
(5) 提取 前 30 个 值 ， 并 将 其 画 出 : 


# 提取 前 30 个 值 画图 
audio = audio[:30] 


(6) X 轴 为 时 间 轴 。 创 建 这 个 轴 ， 并 且 X 轴 应 该 按照 采样 频率 因子 进行 缩放 : 
# 建立 时 间 轴 


x_values = np.arange(0, len(audio), 1) / float(sampling_freq) 
(7) 将 单位 转换 为 秒 : 
# 将 单位 转换 为 秒 


x_values *= 1000 


(8) 将 其 画 出 : 





# 画 出 声音 信号 图 形 
plt.plot (x_values, audio, color='black' 
plt.xlabel ('Time (ms)') 
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plt.ylabel ('Amplitude') 
plt.title('Audio signal') 
plt.show!() 


(9) 全 部 代码 已 经 包含 在 read_plot.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 7-1 所 示 的 信号 。 








【2 ® Figure 1 
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Shape: (132300,) 
Datatype: int16 
Duration: 3.0 seconds 





7.3 将 音频 信号 转换 为 频 域 


音频 信号 是 不 同 频率 、 幅 度 和 相位 的 正弦 波 的 复杂 混合 。 正 弦 波 也 称 作 正弦 曲线 。 音 频 信和 号 
的 频率 内 容 中 隐藏 了 很 多 信息 。 事实 上 , 一 个 音频 信号 的 性 质 由 其 频率 内 容 决 定 。 世界 上 的 语音 
和 音乐 都 是 基于 这 个 事实 的 。 在 进行 接 下 来 的 学 习 之 前 ， 你 需要 了 解 一 些 传 里 时 变换 ( Fourier 
transforms ) 的 知识 ， 可 以 在 http:/www.thefouriertransform.com 中 找到 快速 人 门 介绍 。 下 面 来 学 习 
如 何 将 音频 信和 号 转换 为 频 域 。 



























































详细 步骤 


(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
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分 。 


import numpy as np 
from scipy.io import wavfile 
import matplotlib.pyplot as plt 


(2) 读 取 input_freq.wav 音 频 文件 : 


# 读 取 音频 文件 


sampling_freq, audio = wavfile.read('input_freq.wav') 
(3) 对 信号 进行 标准 化 : 


# ”对 信号 进行 标准 化 


audie = .audieo / "(2-2*%LE9) 
(4) 音频 信号 就 是 一 个 NumPy 数 组 ， 因 此 用 以 下 代码 提取 其 长 度 : 


# 提取 数组 长 度 


len_audio = len(audio) 














(5) 接 下 来 做 傅 里 叶 变换 。 传 里 叶 变 换 是 关于 中 心 点 对 称 的 ， 因 此 只 需要 转换 信和 号 的 前 半 部 


我 们 的 最 终 目 标 是 提取 功率 信号 ， 因 此 需要 先 将 信号 的 值 平方 : 


# 应 用 傅 里 叶 变 换 

transformed_ signal = np.fft.fft(audio) 

half_length = np.ceil((len audio + 1) / 2.0) 

transformed_ signal = abs(transformed signal[0:half_length]) 
transformed_ signal /= float (len audio) 

transformed_ signal **= 2 


(6) 提取 信号 的 长 度 : 

# 提取 转换 信号 的 长 度 

len ts = len(transformed signal) 
(7) 根据 信号 的 长 度 将 信号 乘 以 2: 


# 将 部 分 信号 乘 以 2 
if len audio %$ 2: 

transformed_ signal[l:len ts] *= 2 
else: 


transformed_ signal[l:len ts-1] *= 2 
(8) 功率 信号 用 下 面 的 公式 获得 : 


# 获取 功率 信号 
power = 10 * np.logl0 (transformed_ signal) 


(9) X 轴 是 时 间 轴 。 接 下 来 需要 根据 采样 频率 对 其 进行 缩放 ， 并 将 其 转换 成 秒 : 


# 建立 时 间 轴 


x_values = np.arange(0，half_ length，1) * (sampling_freq / len_ audio) 


(10) 绘制 该 信号 : 








/ 1000.0 
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# 画图 

plt.figure!() 

plt.plot (x_values, power, color='black') 
plt.xlabel('Freq (in kHz)') 
plt.ylabel('Power (in dB)') 

plt.show!() 


(11) 全 部 代码 已 经 包含 在 freq_transform.py 文 件 中 。 运行 该 代码 ,可 以 看 到 如 图 7-3 所 示 的 图 像 。 
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7.4 自 定义 参数 生成 音频 信和 号 


我 们 可 以 用 NumPy 生 成 音频 信号 。 前 面 已 经 说 过 , 音频 信和 号 是 一 些 正弦 波 的 复杂 混合 , 下面 
用 该 原理 生成 自己 的 音频 信号 。 

















详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import numpy as np 


import matplotlib.pyplot as plt 
from scipy.io.wavfile import write 


(2) 定义 一 个 输出 文件 ， 用 于 存储 生成 的 音频 : 


# 定义 存储 音频 的 输出 文件 


output_file = 'output_generated.wayv' 


守 
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(3) 指定 音频 生成 参数 。 我 们 希望 生成 一 个 3 s 长 度 的 信号 ， 采 样 频率 为 44100 Hz， 音 频 的 频 
率 为 587 Hz。 时 间 轴 上 的 值 将 从 -2xpi 到 2xpi: 

# 指定 音频 生成 的 参数 

duration = 3 # 单位 秒 

sampling_freq = 44100 # 单位 Hz 

tone_freq = 587 

min. val = 2 DT 

max_val = 2 * np.pi 


(4) 生成 时 间 轴 和 音频 信号 。 音 频 信 号 是 一 个 简单 的 正弦 函数 ， 其 相关 参数 之 前 已 做 定义 : 


# 生成 音频 信号 
t = np.linspace (min val, max_val, duration * sampling_ freqg) 
audio = np.sin(2 * np.pi * tone_ freq * 七 ) 


(5) 为 信号 增加 一 些 噪声 


# 增加 噪声 
noise = 0.4 * np.random.rand (duration * sampling_freq) 
audio += noise 


(6) 将 这 些 值 转换 为 16 位 整 型 数 ， 然 后 将 其 保存 : 


# 转换 为 16 位 整 型 数 

scaling_factor = pow(2,15) - 1 

audio_ normalized = audio / np.max(np.abs (audio)) 
audio_scaled = np.int1l6 (audio normalized * scaling_factor) 


(7) 将 信号 写 入 输出 文件 : 


# 写 入 输出 文件 


write(output_file, sampling_freq, audio_scaled) 
(8) 用 前 100 个 值 画 出 该 信号 : 


# 提取 前 100 个 值 
audio = audio[:100] 


(9) 生成 时 间 轴 : 


# 生成 时 间 轴 


x_values = np.arange(0, len(audio), 1) / float(sampling_freq) 
(10) 将 时 间 轴 的 单位 转换 为 秒 : 
# 将 时 间 轴 的 单位 转换 为 秒 


x_values *= 1000 














(11) 画 出 该 信号 : 


# 画 出 音频 信号 图 


plt.plot (x_values, audio, color='black') 
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plt.xlabel('Time (ms)') 
plt.ylabel ('Amplitude') 
plt.title('Audio signal') 
plt.show!() 


(12) 全 部 代码 已 经 包含 在 generate.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 7-4 所 示 的 图 像 。 





O80 Figure 1 
























































7.5 ”合成 音乐 


现在 知道 了 如 何 生 成 音频 ,下 面 用 同样 的 原理 来 合成 一 些 音乐 。http://www.phy.mtu.edu/~suits/ 
notefreqs.html 列 举 了 各 种 音阶 ,例如 4、G、D 等 ， 以 及 它们 相应 的 频率 。 下 面 将 用 它 合成 简单 的 


Pa 
日 小 o 


详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import json 

import numpy as np 

from scipy.io.wavfile import write 
import matplotlib.pyplot as plt 


(2) 定义 一 个 函数 ， 该 函数 基于 输入 参数 合成 音调 : 





# 定义 合成 音调 
def synthesizer(freq, duration, amp=1.0, sampling_freq=44100): 


(3) 创建 时 间 轴 : 


# 创建 时 间 轴 


t = np.linspace(0, duration, duration * sampling_freq) 
(4) 用 输入 参数 构建 音频 示例 ， 如 幅度 和 频率 : 


# 构建 音频 信号 


audio = amp x np.sin(2 * np.pi * freq * 七 ) 


return audio.astype (np.int16) 


(5) 定义 main 函 数 。 我 们 提供 了 文件 名 为 tone_ freq map.json 的 JSON 文 件 , 该 文件 包括 一 些 音 
阶 以 及 它们 的 频率 : 





if name ==' main _': 

tone map_file = 'tone_ freq map.json' 
(6) 加 载 该 文件 : 

# 读 取 频 率 映 射 文件 


with open(tone map_file, 'r') as f: 
tone_freq map = json.loads(f.read()) 


(7) 假设 想 生 成 2 秒 的 G 调 : 


# 设置 生成 G 调 的 输入 参数 

tone input_tone = 'G' 

duration = 2 # 单位 秒 
amplitude = 10000 

sampling_freq = 44100 # 单位 Hz 


(8) 用 以 下 参数 调用 该 函数 
# 生成 音阶 


synthesized tone = synthesizer(tone _ freq map[input_ tone], duration, amplitude, 
sampling_freq) 


(9) 将 生成 信号 写 人 输出 文件 : 
# 写 入 输出 文件 
write('output_ tone.wav', sampling_freq, synthesized_ tone) 
(10) 用 媒体 播放 器 打开 文件 并 试听 ， 它 确实 是 G 调 。 下 面 做 一 些 更 有 趣 的 事情 。 生 成 一 系列 
的 音阶 ， 让 其 有 一 些 音乐 的 感觉 。 定 义 一 个 音阶 及 其 持续 时 间 ( 秒 ) 的 序列 : 


# 音阶 及 其 持续 时 间 
tone -Se s EAD yy (Oy Oy RV dR hm sy. 
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(11) 迭代 该 序列 并 为 它们 调用 合成 器 函数 : 


# 构建 基于 和 弦 序 列 的 音频 信号 
output = np.array ([]) 
for item in tone_ seq: 
input_tone = item[0] 
duration = item[1] 
synthesized tone = 
amplitude, sampling_freq) 
output = np.append(output, synthesized_ tone, axis=0) 


(12) 将 生成 信号 写 人 输出 文件 : 


# 写 入 输出 文件 
write('output_tone segq.wav', sampling_freq, output) 
(13) 全 部 代码 已 经 包含 在 synthesize_music.py 文 件 中 。 用 媒体 播放 髓 打开 output_tone_seq.wav 
文件 并 试听 ， 你 就 可 以 感受 到 音乐 ! 





synthesizer(tone_ freq map[input_ tone], duration, 








7.6 提取 频 域 特征 


前 面 讨 论 了 如 何 将 信号 转换 为 频 域 。 在 多 数 的 现代 语音 识别 系统 中 , 人 们 都 会 用 到 频 域 特征 。 
将 信号 转换 为 频 域 之 后 ， 还 需要 将 其 转换 成 有 用 的 形式 。 梅 尔 频率 倒 谱系 数 ( Mel Frequency 
Cepstrum Coefficient，MFCC ) 可 以 解决 这 个 问题 。MFCC 首 先 计算 信号 的 功率 谱 ， 然 后 用 滤波 
器 组 和 离散 余弦 变换 的 组 合 来 提取 特征 。 如 果 需 要 快速 入 门 , 可 以 查看 http:/practicalcryptography. 
com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs。 在 进行 接 下 来 
的 学 习 之 前 ， 请 确保 你 已 经 安装 了 python_speech features 包 ， 安 装 指 南 可 以 参考 http://python- 


speech-features.readthedocs.org/en/latest。 接 下 来 介绍 如 何 提取 MFCC 特 征 。 























详细 步 又 
(1) 创建 一 个 Python 文 件 ， 并 导入 以 下 程序 包 : 


import numpy as np 

import matplotlib.pyplot as plt 
from scipy.io import wavfile 

from features import mfcc, logfbank 


(2) 读 取 input_freq.wav 输 入 文件 : 


# 读 取 输入 音频 文件 


sampling_freq, audio = wavfile.read("input_freg.wav'") 


G3) 提取 MFCC 和 过 滤器 组 特征 : 
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# 提取 MFCC 和 过 滤器 组 特征 
mfcc_features = mfcc(audio, sampling_freq) 
filterbank_ features = logfbank(audio, sampling_freq) 


(4) 打印 参数 ， 查 看 可 生成 多 少 个 窗 体 : 





# 打印 参数 
print '\nMFCC:\nNumber of windows ='，mfcc_ features.shape[0] 
print 'Length of each feature =', mfcc_ features.shape[1] 
print '\nFilter bank:\nNumber of windows =', filterbank_ features. shape[0] 
print 'Length of each feature =', filterbank features.shapel[l1] 
» Z| 
(5) 将 MFCC 特 征 可 视 化 。 转 换 和 矩阵 ， 使 得 时 域 是 水 平 的 : 
# 了 画 出 特征 图 


mfcc_features = mfcc_features.T 
plt.matshow (mfcc_features) 
plt.title('MFCC') 


(6) 将 滤波 器 组 特征 可 视 化 。 这 里 也 需要 转换 矩阵 ， 使 得 时 域 是 水 平 的 : 
filterbank_features = filterbank features.T 
plt.matshow(filterbank_features) 


plt.title('Filter bank') 


plt.show!() 


(7) 全 部 代码 已 经 包含 在 extract_freq_features.py 文 件 中 。 运 行 该 代码 ， 可 以 得 到 如 图 7-5 所 示 


的 MFCC 特 征 图 像 。 


Bs. Figure 1 my 
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图 7-5 
(8) 滤波 器 组 特征 图 像 如 图 7-6 所 示 。 
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(9) 终端 将 输出 如 图 7-7 所 示 的 结果 。 


MFCC: 
Number of windows = 40 
Length of each feature = 13 


Filter bank: 
Number of windows = 40 
Length of each feature = 26 





图 7-7 


7.7 创建 隐 马 尔 科 夫 模 型 


接 下 来 可 以 讨论 语音 识别 了 ， 本 例 将 用 到 隐 马 尔 科 夫 模型 ( Hidden Markov Models, HMMs ) 
来 做 语音 识别 。 隐 马尔 科 夫 模型 非常 擅长 建立 时 间 序 列 数据 模型 。 因 为 一 个 音频 信号 同时 也 是 
个 时 间 序 列 信号 , 因此 隐 马 尔 科 夫 模 型 也 同样 适用 于 音频 信和 号 的 处 理 。 假 定 输出 是 通过 隐藏 状态 
生成 的 ， 我 们 的 目标 是 找到 这 些 隐 藏 状态 ， 以 便 对 信和 号 建 模 。 你 可 以 在 https:/www.robots.ox.ac. 
uk/~vgg/rg/slides/hmm.pdf 查 看 更 多 关于 隐 马 尔 科 夫 模型 的 介绍 。 进 行 接 下 来 的 学 习 之 前 ,请 确保 
你 已 经 安装 了 hmmlearn 包 ， 安 装 说 明 可 查看 http:/hmmlearn.readthedocs. org/en/latest。 接 下 来 学 习 
如 何 创 建 隐 马尔 科 夫 模型 。 




































































详细 步骤 
(1) 创建 一 个 Python 文件 ， 定 义 一 个 类 来 创建 隐 马 尔 科 夫 模 型 : 
# 创建 类 处 理 HMM 相 关 过 程 


class HMMTrainer (object): 
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(2) 初始 化 该 类 。 下 面 将 用 到 高 斯 隐 马 尔 科 夫 模 型 ( Gaussian HMMs ) 来 对 数据 建 模 。 人 参数 
n_components 定 义 了 隐藏 状态 的 个 数 ， 参数 cov_type 定 义 了 转移 和 矩阵 的 协 方差 类 型 ， 参数 
n_iter 定 义 了 训练 的 迭代 次 数 : 


def _ init _(self, model name='GaussianHMM', n_components=4, cov_type='diag', 
n_iter=1000): 


这 些 参数 的 选 定 取决 于 你 的 需求 。 只 有 正确 地 理解 这 些 参数 的 含义 ， 才 能 灵活 地 进行 运用 。 
(3) 初始 化 变量 : 


self.modqel_name = model_ name 
self.n components = n_components 
self.cov_type = cov_type 

self.n iter = n iter 

self.models = [] 


(4) 用 以 下 参数 定义 模型 : 


if self.model name == 'GaussianHMM': 
self.model = hmm.GaussianHMM(n_ components=self.n components, 
Covariance type=self.cov_type, n_ iter=self.n_ iter) 
else: 
raise TypeError('Invalid model type') 


(5) 输入 数据 是 一 个 NumPy 数 组 , 数组 的 每 个 元 素 都 是 一 个 特征 向 量 , 每 个 特征 向 量 都 包含 


个 维度 : 
7 
# X 是 二 维 数组 ， 其 中 每 一 行 是 13 维 | 


def train(self, X): 
np.seterr(all='ignore') 
self.models.append(self.model .fit (Xx)) 


(6) 基于 该 模型 定义 一 个 提取 分 数 的 方法 : 


# 对 输入 数据 运行 模型 
def get_score(self, input_data): 
return self.model.score(input_data) 


(7) 前 面 创建 了 一 个 类 来 处 理 隐 马 尔 科 夫 模型 的 训练 和 预测 ， 但 是 还 需要 一 些 数据 来 观察 它 
的 运行 情况 。 下 一 节 将 创建 一 个 语音 识别 器 ， 全 部 代码 包含 在 speech recognizerpy 文 件 中 。 

















7.8 创建 一 个 语音 识别 器 


本 节 需 要 一 个 语音 文件 数据 库 来 创建 语音 识别 器 ， 用 到 的 数据 库 文 件 保存 在 https://code. 
google.com/archive/p/hmm-speech-recognition/downloads 中 。 其 中 包含 7 个 不 同 的 单词 , 并 且 每 个 单 
词 都 有 15 个 音频 文件 与 之 相关 。 这 是 一 个 较 小 的 数据 集 , 但 是 足够 我 们 理解 如 何 创 建 一 个 语音 识 
别 器 并 识别 7 个 不 同 的 单词 。 我 们 需要 为 每 一 类 构建 一 个 隐 马 尔 科 夫 模 型 。 如 果 想 识别 新 的 输入 
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文件 中 的 单词 , 需要 对 该 文件 运行 所 有 的 模型 ,并 找 出 最 佳 分 数 的 结果 。 下 面 将 用 到 在 前 一 节 构 
建 的 隐 马 尔 科 夫 类 。 


详细 步 又 
(1) 创建 一 个 Python 文 件 ， 并 导入 以 下 程序 包 : 


import os 
import argparse 


import numpy as np 

from scipy.io import wavfile 
from hmmlearn import hmm 
from features import mfcc 


(2) 定义 一 个 函数 来 解析 命令 行 中 的 输入 参数 : 


# 解析 输入 参数 的 函数 
def buildq_arg_parser() : 
parser = argparse.ArgumentParser (description='Trains the HMM classifier') 
parser.add_argument ("--input-folder", dest="input_folder", required=True, 
help="Input folder containing the audio files insubfolders") 
return parser 


(3) 定义 main 孙 数 ， 解 析 输 入 参数 : 
3 name =='_ main _': 


args = build arg parser() .parse _ args() 
input_folder = args.input_folder 


(4) 初始 化 隐 马 尔 科 夫 模型 的 变量 : 
hmm models = [] 
(5) 解析 包含 所 有 数据 库 音 频 文 件 的 输入 路 径 : 


# 解析 输入 路 径 


for dirname in os.listdir(input_folder): 


(6) 提取 子 文件 夹 的 名 称 : 


# 获取 子 文 件 夹 名 称 


subfolder = os.path.join(input_folder, dirname) 











if not os.path.isdir(subfolder): 
continue 


(7) 子 文件 夹 的 名 称 即 为 该 类 的 标记 。 用 以 下 方式 将 其 提取 出 来 : 


# 提取 标记 
label = subfolder[subfolder.rfind('/') + 1:] 
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(8) 初始 化 用 于 训练 的 变量 : 


# 初始 化 变量 
X = np.array([]) 
y_words = [] 


(9) 迭代 每 一 个 子 文件 夹 中 的 音频 文件 : 
# 选 代 所 有 音频 文件 〈 分 别 保留 一 个 进行 测试 ) 


for filename in [x for x in os.listdir(subfolder) if x.endswith('.wav')][:-1]: 
(10) 读 取 每 个 音频 文件 : 


# 读 取 每 个 音频 文件 
filepath = os.path.join(subfolder, filename) 
sampling_freq, audio = wavfile.read(filepath) 


(11) 提取 MFCC 特 征 : 


# 提取 MFCC 特 征 


mfcc_features = mfcc(audio, sampling_freq) 
(12) 将 MFCC 特 征 添加 到 x 变量 : 


# 将 MFCC 特 征 添 加 到 X 变 量 
1 Le (X). SS 
xX = mfcc_features 
else: 
xX = np.append(X, mfcc_features, axis=0) 


(13) 同时 添加 标记 信息 : 


# 添加 标记 
y_words.append (label) 


(14) 一 旦 提取 完 当前 类 所 有 文件 的 特征 ,就 可 以 训练 并 保存 隐 马 尔 科 夫 模型 了 。 因 为 隐 马 尔 
科 夫 模型 是 一 个 无 监督 学 习 的 生成 模型 ， 所 以 并 不 需要 利用 标记 针对 每 一 类 构建 隐 马 尔 科 夫 模 
型 。 假 定 每 个 类 都 将 构建 一 个 隐 马 尔 科 夫 模 型 : 


# 训练 并 保存 HMM 模 型 

hmm trainer = HMMTrainer () 

hmm trainer.train (Xx) 

hmm models.append( (hmm trainer, label)) 
hmm trainer = None 


(15) 获取 一 个 未 被 用 于 训练 的 测试 文件 列表 : 
# 测试 文件 


input_files = [ 
'data/pineapple/pineapplel5 .wav', 
'data/orange/orangel5 .wav', 
'data/apple/applel5 .wav', 
'data/kiwi/kiwil5 .wav' 


] 
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(16) 解析 输入 文件 : 


# 为 输入 数据 分 类 


for input_file in input_files: 
(17) 读 取 每 个 音频 文件 : 


# 读 取 每 个 音频 文件 
sampling_freq, audio = wavfile.read(input_file) 


(18) 提取 MFCC 特 征 : 











# 提取 MFCC 特 征 


mfcc_features = mfcc(audio, sampling_freq) 
(19) 定义 两 个 变量 ,分 别 用 于 存放 最 大 分 数值 和 输出 标记 : 
# 定义 变量 


max_score = None 
output_label = None 


(20) 迭代 所 有 模型 ， 并 通过 每 个 模型 运行 输入 文件 : 
# 选 代 HMM 模 型 并 选取 得 分 最 高 的 模型 


for item in hmm models: 
hmm model, label = item 


(21) 提取 分 数 ， 并 保存 最 大 分 数值 : 


Score = hmm model.get_score(mfcc_ features) 
if score > max_score: 









































max_score = score 
output_label = label 


(22) 打印 真实 的 、 预 测 的 标记 : 
# 打印 结果 
print "\nTrue:", input_file[input_file.find('/')+l:input_ file.rfind('/')] 
print "Predicted:", output_label 
(23) 全 部 代码 已 经 包含 在 speech_recognizer.py 文 件 中 。 运 行 该 代码 ， 可 以 在 终端 看 到 如 图 7-8 
所 示 的 显示 结果 。 





True: pineapple 
Predicted: pineapple 


True: orange 
Predicted: orange 


True: apple 
Predicted: apple 


True: kiwi 
Predicted: kiwi 





图 7-8 


第 8 章 


解剖 时 间 序 列 和 了 时序 数据 








在 这 一 章 ， 我 们 将 介绍 以 下 主题 : 


口 将 数据 转换 为 时 间 序 列 格 式 

口 切 分 时 间 序 列 数据 

口 操作 时 间 序 列 数据 

口 从 时 间 序 列 数据 中 提取 统计 数字 

口 针对 序列 数据 创建 隐 马 尔 科 夫 模 型 

口 针对 序列 文本 数据 创建 条 件 随 机 场 
口 用 隐 马 尔 科 夫 模型 分 析 股 票 市 场 数 据 

















8.1 简介 


时 间 序 列 数据 就 是 随 着 时 间 的 变化 收集 的 测量 序列 数据 。 这些 数据 是 根据 预定 义 的 变量 并 在 
定 的 间隔 时 间 采 集 的 。 时 间 序 列 数 据 最 主要 的 特征 就 是 其 顺序 是 非常 关键 的 。 


我 们 收集 的 数据 是 按照 时 间 轴 排序 的 , 它们 的 出 现 顺序 包含 很 多 隐藏 的 模式 和 信息 。 如 果 改 
变 顺 序 ， 则 将 彻底 改变 数据 的 含义 。 序 列 数据 的 广义 概念 是 指 任意 序列 形式 的 数据 , 包括 时 间 序 
列 数据 。 


我 们 的 目标 是 构建 一 个 模型 ,该 模型 描述 了 时 间 序 列 或 任意 序列 的 模式 , 用 于 描述 时 间 序 列 
模式 的 重要 特征 。 可 以 用 这 些 模 型 解释 过 去 可 能 会 影响 到 未 来 , 查看 两 个 数据 集 是 如 何 相 互 关联 
的 ， 如 何 预测 未 来 可 能 的 值 ， 或 者 如 何 控制 基于 某 个 度量 标准 的 给 定 变 量 。 


为 了 将 时 间 序 列 数据 可 视 化 , 我 们 倾向 于 将 其 用 折线 图 或 柱状 图 画 出 。 时 间 序 列 数据 分 析 常 
用 于 金融 、 信 和 号 处 理 、 天 气 预 测 、 轨 道 预测 、 地 震 预测 或 者 任意 需要 处 理 时 间 数 据 的 场合 。 我 们 
在 时 间 序列 和 顺序 数据 分 析 中 构建 的 模型 应 该 考虑 数据 的 顺序 , 并 提取 相互 之 间 的 关系 。 接 下 来 
分 析 Python 中 的 时 间 序 列 和 顺序 数据 。 
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8.2 将 数据 转换 为 时 间 序 列 格式 


下 面 以 理解 如 何 将 一 系列 观察 结果 转换 为 时 间 序 列 数据 并 将 其 可 视 化 作为 本 章 的 开始 。 本 例 
将 用 到 pandas 库 来 分 析 时 间 序 列 数据 。 在 进行 接 下 来 的 学 习 之 前 ， 请 确保 已 经 安装 好 了 pandas 
库 ， 安 装 方法 可 以 参考 http://pandas.pydata.org/pandas-docs/stable/install.htm。 








详细 步骤 
(D 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 


(2) 定义 一 个 函数 来 读 取 输 入 文件 ， 该 文件 将 序列 观察 结果 转换 为 时 间 序 列 数据 : 
def convert_ data to timeseries (input_file, column, verbose=False): 
(3) 这 里 将 用 到 一 个 包含 4 列 的 文本 文件 ， 其 中 第 一 列表 示 年 ,第 二 列表 示 月 ,第 三 列 和 第 四 
列表 示 数 据 。 将 文件 加 载 到 NumPy 数 组 : 
# 加 载 输入 文件 
data = np.loadtxt (input_file, delimiter=',') 
(4) 因为 数据 是 按时 间 的 前 后 顺序 排列 的 ， 数 据 的 第 一 行 是 起 始 日 期 ， 而 数据 的 最 后 一 行 是 
终止 日 期 。 下 面 提取 出 数据 集 的 起 始 日 期 和 终止 日 期 : 


# 提取 起 始 日 期 和 终止 日 期 
start_date = str(int(data[0,0])) + '-' + str(int(data[0,1])) 
engd date = str(int(datal[-1,0] + 1)) + '-' + str(int (data[-1,1]% 12 + 1)) 


(5) 这 个 函数 还 有 一 个 详细 的 版 本 。 因 此 ， 当 这 个 值 为 真 时 ， 就 打印 一 些 信息 。 打 印 出 起 始 
日 期 和 终止 日 期 : 


if verbose: 
print "\nStart date =", start_date 
print "Engd date =", end _ date 


(6) 创建 一 个 pandas 变 量 ， 该 变量 包含 了 以 月 为 间隔 的 日 期 序列 : 


# 创建 以 月 为 间隔 的 变量 
dates = pd.date_range(start_date, end_date, freq='M') 


(7) 下 一 步 是 将 给 定 的 列 转换 为 时 间 序 列 数据 。 可 以 用 年 和 月 访问 这 些 数据 ( 而 不 是 索引 ): 
# 将 日 期 转换 成 时 间 序 列 


data_timeseries = pd.Series (data[:,column], index=dates) 
(8) 打印 出 最 开始 的 10 个 元 素 : 


if verbose: 






































print "\nTime series data:\n", data timeseries[:10] 
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(9) 返回 时 间 索 引 变 量 : 
return data_timeseries 
(10) 定义 main 函 数 : 
if _ name =='_ main 
(11) 本 例 将 使 用 本 书 提供 的 data_timeseries.txt 文 件 : 


# 输入 数据 文件 
input_file = 'data timeseries.txt' 


(12) 加 载 文 本 文件 的 第 三 列 ， 并 将 其 转换 为 时 间 序 列 数 据 : 
# 加 载 输入 数据 


column num = 2 
data_ timeseries = convert _ data to timeseries (input_file, column _ num) 


(13) pandas 库 提供 了 非常 实用 的 画图 功能 ， 你 可 以 直接 在 变量 上 运行 : 
# 画 出 数据 序列 数据 


data timeseries.plot() 
plt.title('Input data') 














plt.show!() 


(14) 全 部 代码 已 经 包含 在 convert to_timeseries.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 8-1 所 
示 的 图 像 。 
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8.3 切 分 时 间 序 列 数据 


这 一 他 将 介绍 如 何 用 pandas 切 分 时 间 序 列 数据 ， 帮 助 你 从 时 间 序 列 数据 的 各 个 阶段 获得 相应 
的 信息 。 接 下 来 将 学 习 如 何 用 日 期 处 理 数据 集 的 子 集 。 








详细 步骤 
(1) 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 
import numpy as np 


import pandas as pd 
import matplotlib.pyplot as plt 





from convert to timeseries import convert_ data to timeseries 
(2) 使 用 前 一 节 中 用 到 的 文本 文件 ， 对 该 文本 文件 中 的 数据 进行 切 分 : 
# 输入 数据 文件 





input_file = 'data timeseries.txt' 

(3) 又 一 次 用 到 第 三 列 数 据 : 

# 加 载 数据 

column num = 2 

data_ timeseries = convert data to timeseries (input_file, column_ num) 


(4) 假定 我 们 希望 提取 给 定 的 起 始 年 份 和 终止 年 份 之 间 的 数据 ， 下 面 做 如 下 定义 : 


# 确定 画图 起 止 年 份 
start se "2008" 
end = '2015' 


(5) 画 出 给 定年 份 范 围 内 的 数据 : 


plt.figure!() 
data_timeseries[start:end] .plot() 
plt.title('Data from ' + start + ' to ' + end) 


(6) 还 可 以 在 给 定 月 份 范围 内 切 分 数据 : 


# 画图 起 止 年 月 
臣下 共计 2200 
end = '2007-11' 


(7) 画 出 数据 : 


plt.figure!() 
data_ timeseries[start:end] .plot() 
plt.title('Data from ' + start + ' to ' + end) 




















plt.show!() 
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(8) 全 部 代码 已 经 包含 在 slicing_data.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 8-2 所 示 的 图 像 
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图 8-2 
(9) 如 图 8-3 所 示 的 图 像 展示 了 更 小 时 间 范 围 内 的 数据 ， 因 此 它 看 起 来 像 是 做 了 放大 处 理 





















































图 8-3 
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8.4 操作 时 间 序 列 数据 


现在 我 们 知道 如 何 切 分 数据 并 抽取 各 种 子 数据 集 了 , 接 下 来 介绍 如 何 操作 时 间 序 列 数据 。 你 
可 以 用 各 种 不 同 的 方式 过 滤 数 据 。pandas 库 提供 了 各 种 操作 时 间 序 列 数据 的 方式 。 











详细 步骤 
(1) 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 
import numpy as np 


import pandas as pd 
import matplotlib.pyplot as plt 





from convert_ to timeseries import convert data to timeseries 
(2) 使 用 上 一 节 用 到 的 文本 文件 : 
# 输入 数据 文件 


input_file = 'data timeseries.txt' 
(3) 将 用 到 第 三 列 和 第 四 列 数据 : 
# 加 载 数据 


datal = convert_data to timeseries (input_file, 2) 
data2 = convert_data to timeseries (input_file, 3) 


(4) 将 数据 转化 为 pandas 的 数据 帧 : 
dataframe = pd.DataFrame ({'first': datal, 'second': data2}) 
(5) 画 出 给 定年 份 范围 内 的 数据 : 


# 画图 
dataframel 1952"7+*1955] .DLot() 
plt.title('Data overlapped on top of each other') 


(6) 假定 我 们 希望 画 出 在 给 定年 份 范 围 内 刚才 加 载 的 两 列 数据 的 不 同 , 可 以 用 以 下 方式 实现 : 


# 画 出 两 组 数据 的 不 同 

plt.figure!() 

difference = dataframe['1952':'1955']['first'] - dataframe['1952':'1955']['second'] 
difference.plot() 

plt.title('Difference (first - second)') 


(7) 如 果 和 希望 对 第 一 列 和 第 二 列 用 不 同 的 条 件 来 过 滤 数 据 ， 可 以 指定 这 些 条 件 并 将 其 画 出 : 


# 当 “first” 大 于 某 个 网 值 且 “secondq” 小 于 某 个 阅 值 时 
dataframe[ (dataframe['first'] > 60) & (dataframe['second'] < 20)]. plot() 
plt.title('first > 60 angd second < 20') 














plt.show!() 
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(8) 全 部 代码 已 经 包含 在 operating_on_data.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 8-4 所 示 的 
第 一 幅 图 像 。 
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图 8-4 
(9) 如 图 8-5 所 示 的 第 二 幅 图 像 表 示 出 不 同 之 处 。 












































154 第 8 章 解剖 时 间 序 列 和 时 序数 据 





(10) 如 图 8-6 所 示 的 第 三 幅 图 像 表示 过 滤 数 据 。 


















































8.5 从 时 间 序 列 数据 中 提取 统计 数字 


分 析 时 间 序 列 数据 的 主要 原因 之 一 是 从 中 提取 出 有 趣 的 统计 信息 。 考 虑 数据 的 本 质 , 时 间 序 
列 分 析 可 以 提供 很 多 信息 。 本 节 将 介绍 如 何 提 取 这 些 统计 信息 。 


详细 步骤 
(1) 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from convert_to timeseries import convert_data to timeseries 
(2) 用 到 前 一 节 用 到 的 文本 文件 : 


# 输入 数据 文件 


input_file = 'data timeseries .txXt' 


(3) 加 载 第 三 列 和 第 四 列 数据 : 


图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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# 加 载 数据 
datal = convert_data to timeseries (input_file, 2) 
data2 = convert_data to timeseries (input_file, 3) 


(4) 创建 一 个 pandas 数 据 结构 来 保存 这 些 数 据 , 这 个 数据 看 着 比较 像 词典 , 它 有 对 应 的 键 和 值 : 
dataframe = pd.Datarrame({'first': datal, 'second': data2]) 

(5) 接 下 来 提取 一 些 统计 数据 。 用 以 下 代码 提取 最 大 值 和 最 小 值 : 

# 打 印 最 大 值 和 最 小 值 


print '\nMaximum:\n', dataframe.max() 
print '\nMinimum:\n', dataframe.min() 


(6) 打印 数据 的 均值 或 者 是 每 行 的 均值 : 





# 打印 均值 
print '\nMean:\n', dataframe.mean() 
print '\nMean row-wise:\n', dataframe.mean(1)[:10] 























(7) 滑动 均值 是 在 时 间 序 列 分 析 中 较 常 用 的 统计 。 其 最 著名 的 应 用 之 一 是 平滑 信号 以 去 除 噪 
声 。 滑 动 均值 是 指 计算 一 个 窗口 范围 内 的 信号 均值 ， 并 不 断 地 移动 时 间 宿 。 这 里 用 到 的 窗口 大 小 
为 24: 

# 打印 滑动 均值 


pd.rolling mean (dataframe, window=24) .plot() 
(8) 相关 性 系数 对 于 理解 数据 的 本 质 来 说 非常 有 用 : 


# 打印 相关 性 系数 


print '\nCorrelation coefficients:\n', dataframe.corr() 


(9) 用 大 小 为 60 的 窗口 将 其 画 出 ; 汪汪 


# 画 出 滑动 相关 性 
plt.figure() 
pd.rolling_ corr(dataframe['first'], dataframe['second'], window=60) .plot() 





plt.show!() 


(10) 全 部 代码 已 经 包含 在 extract_stats.py 文 件 中 。 运行 该 代码 , 可 以 看 到 画 出 的 滑动 均值 如 图 
8-7 所 示 。 
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图 8-7 
(11) 第 二 幅 图 像 表 示 滑 动 相 关 性 ， 如 图 8-8 所 示 。 
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(12) 在 命令 

second 

dtype: float64 

Minimum: 

first 0.07 

Second 0.00 

dtype: float64 

Mean: 

first 51.264529 

second 49.695417 

dtype: float64 

图 8-9 

(13) 在 命令 行 工 具 输 出 的 下 半 部 分 ， 可 以 看 到 每 4 





Mean row-wise: 
1940-01-31 .885 
1940-02-29 35 
1940-03-31 .305 
1940-04-30 .545 
1940-065-31 .395 
1940-06-30 .695 
1940-07-31 .875 
1940-08-31 .255 
1940-09-30 .880 
1940-10-31 .720 
Freq: M, dtype: float64 


Correlation coefficients : 
first second 

1.000006 0.077607 

1.000000 


first 
second 0.077607 


图 8-10 
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了 的 均值 和 相关 系数 ， 





本 工具 输出 的 上 半 部 分 ， 可 以 看 到 最 大 值 、 最 小 值 和 均值 ， 如 图 8-9 所 示 。 





如 图 8-10 所 示 。 





隐 马 尔 科 夫 模型 (HMMs 
天 气 预 测 、 单 词 序列 等 领域 。 

















着 一 旦 掌握 了 其 底层 结 
可 以 做 类 区 分 的 判定 模型 形成 鲜明 的 对 比 ， 但 是 





是 处 理 序列 数据 非常 强大 的 方法 ， 
我 们 往往 对 发 现 随 时 间 变 化 的 ai 


任何 产生 输出 序列 的 数据 源 均 可 以 产生 模式 。 请 注意 ， 
构 ， 就 可 以 产生 数据 。 DM 能 对 基础 形式 的 类 
这 些 可 以 做 类 区 分 的 判定 模型 却 不 能 生成 数据 。 





广泛 应 用 于 金融 、 语 音 分 析 、 

















感 兴 





HMMs 是 一 个 生成 模型 ， 这 也 就 意味 
进行 区 分 ， 这 与 那些 
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节 





8.6.1 准备 工作 


例如 , 我 们 希望 预测 明天 的 天 气 是 晴天 、 阴 天 或 下 雨 。 为 了 实现 预测 , 需要 查看 所 有 的 参数 ， 
例如 温度 、 气 压 等 ， 而 潜在 的 状态 是 隐藏 的 。 这 里 ， 洪 在 的 状态 是 指 3 个 可 选 状态 : 晴天 、 阴 天 
或 下 雨 。 如 果 希 望 了 解 更 多 HMMs 的 详细 介绍 ， 可 以 在 https://www.robots.ox.ac.uk/~vgg/rg/slides/ 
hmm.pdf 找 到 相关 信息 。 


本 例 将 用 到 hmmlearn 来 创建 和 训练 HMMs, 在 进行 接 下 来 的 学 习 之 前 , 请 确保 你 已 经 安装 了 
hmmlearn， 安 装 说 明 请 查看 http://hmmlearn.readthedocs.org/en/latest。 























8.6.2 ”详细 步骤 
(1) 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 


import datetime 





import numpy as np 
import matplotlib.pyplot as plt 
from hmmlearn.hmm import GaussianHMM 


from convert to timeseries import convert data to timeseries 


(2) 本 例 将 用 到 提供 的 data_hmm.txt 文 件 。 该 文件 包括 带 逗 号 分 隔 符 的 行 。 每 行 包括 3 个 值 : 
一 个 年 份 、 一 个 月 份 和 一 个 浮 点 型 数据 。 下 面 将 它 加 载 到 一 个 NumPy 数 组 中 
# 从 输入 文件 加 载 数据 


input_file = 'Qqata_hmm.txt' 
data = np.loadtxt (input_file, delimiter=',') 


(3) 将 数据 按照 列 的 方向 堆 生 起 来 用 于 分 析 。 我 们 并 不 需要 在 技术 上 做 列 堆 苹 ， 因 为 只 有 一 
个 列 ， 但 如 果 你 有 多 于 一 个 列 要 进行 分 析 ， 那 么 可 以 用 下 面 的 代码 实现 : 
# 排列 训练 数据 
X= oltmn Stacek (laat a yy) 
(4) 用 4 个 成 分 创建 并 训练 HMM。 成 分 的 个 数 是 一 个 需要 进行 选择 的 超 参 数 。 这 里 选择 4 个 成 
也 就 意味 着 用 4 个 潜在 状态 生成 数据 。 接 下 来 看 看 这 个 参数 的 性 能 如 何 变 化 : 
# 创建 并 训练 高 斯 HMM 模 型 
print "\nTraining HMM...." 
num_components = 4 
model = GaussianHMM(n_ components=num components, covariance_ type="diag", 


n_iter=1000) 
model .fit (x) 


(5) 运行 预测 器 以 获得 隐藏 状态 : 


# 预测 HMM 的 隐藏 状态 
hidden_ states = model .predict (x) 



































分 
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(6) 计算 这 些 隐藏 状态 的 均值 和 方差 : 


print "\nMeans and variances of hidden states:" 
for i in range(model.n_components): 
Print "\nHidden state", i+l1 





print "Mean =", round(model.means_[i][0], 3) 
print "Variance =", round(np.diag (model.covars_[i])[0], 3) 
(7) 正如 前 面 所 述 ，HMM 是 一 个 生成 模型 ， 因 此 这 里 生成 1000 个 示例 数据 并 将 其 画 出 : 
# 用 模型 生成 数据 
num_samples = 1000 
samples, _ = model.sample (num_ samples) 
plt.plot (np.arange (num_ samples), samples[:,0], c='black') 
plt.title('Number of components = ' + str(num components)) 
plt.show!() 


(8) 全 部 代码 已 经 包含 在 hmm.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 8-11 所 示 的 图 像 。 





全 回国 Figure 1 



























































图 8-11 


(9) 可 以 用 n_components 参 数 进行 试验 ， 看 看 随 着 其 值 的 增加 ， 曲 线 会 变 得 更 好 ， 也 可 以 
通过 设 定 更 多 的 隐藏 状态 来 训练 和 自 定 义 模型 。 如 果 将 这 个 参数 设 为 8， 其 结果 如 图 8-12 所 示 。 
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图 8-12 


(10) 如 果 将 它 增加 到 12 ， 图 像 会 变 得 更 平滑 ， 如 图 8-13 所 示 。 














介 |OO|+ 中 固 加 





























图 8-13 


(11) 在 命令 行 工 具 中 ， 可 以 看 到 如 图 8-14 所 示 的 输出 结果 。 


图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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Training HMM.... 


Means and variances of hidden states: 


Hidden state 1 
Mean = 5.092 
Variance = 0.677 


Hidden state 2 
Mean = 0.6 
Variance = 0.254 


Hidden state 3 
Mean = 8.099 
Variance = 0.678 


Hidden state 4 
Mean = 2.601 
Variance = 0.257 





图 8-14 


8.7 ”针对 序列 文本 数据 创建 条 件 随 机 场 


条 件 随机 场 ( Conditional Random Fields，CRFs ) 是 一 个 概率 模型 ， 该 模型 用 于 分 析 结构 化 
数据 。 条 件 随 机 场 常用 于 标记 和 分 段 序 列 数据 。 条 件 随机 场 与 隐 马 尔 科 夫 模型 相反 ,， 它 是 一 个 判 
定 模型 ， 而 隐 马 尔 科 夫 模型 是 一 个 生成 模型 。 条 件 随 机 场 用 于 分 析 序 列 、 股 票 、 语 音 、 单 词 等 。 
在 这 些 模型 中 , 给 定 一 个 带 标签 的 观察 序列 ， 对 这 个 序列 定义 一 个 条 件 随机 分 布 。 这 与 隐 马 尔 科 
夫 模 型 相反 ， 隐 马尔 科 夫 模型 定义 的 是 对 标签 和 观察 序列 的 联合 分 布 。 






























































8.7.1 准备 工作 


隐 马 尔 科 夫 模 型 假设 当前 的 输出 是 与 之 前 的 输出 独立 统计 的 。 这 是 隐 马 尔 科 夫 模型 所 需要 
的 ， 以 确保 该 假设 能 够 以 一 种 健壮 的 方式 工作 。 然 而 ,这 个 假设 并 不 总 是 成 立 。 时 间 序 列 中 的 当 
前 输出 往往 取决 于 之 前 的 输出 。 条 件 随机 场 模型 优 于 隐 马 尔 科 夫 模型 的 一 点 在 于 它们 是 由 自然 条 
件 决定 的 , 也 就 是 说 , 条件 随机 场 模型 并 不 假设 输出 观察 值 之 间 的 独立 性 。 不 仅 如 此 ,条件 随 机 
场 还 有 一 些 优 于 隐 马 尔 科 夫 模型 的 地 方 。 条件 随 机 场 模型 在 诸如 语言 学 、 生 物 信息 学 、 语 音 分 析 
等 领域 的 应 用 都 优 于 隐 马 尔 科 夫 模型 。 这 一 节 将 介绍 如 何 用 条 件 随 机 场 模型 分 析 字 母 序列 。 


本 例 将 用 到 pystruct 库 来 构造 和 训练 条 件 随机 场 。 在 进行 接 下 来 的 学 习 之 前 ， 请 确保 你 已 经 
安装 了 它 ， 安 装 说 明 可 查看 https://pystruct.github.io/installation.html。 



























































8.7.2 详细 步骤 
(1) 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 








import os 
import argparse 
import cPickle as pickle 
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import numpy as np 

import matplotlib.pyplot as plt 

from pystruct.datasets import load_ letters 
from pystruct.models import ChainCRF 

from pystruct.learners import FrankWolfeSSVvM 


(2) 定义 一 个 参数 解析 器 ， 并 将 c 值 作为 输入 参数 。c 是 一 个 超 参 数 ， 该 参数 控制 你 想 要 的 模 
型 的 具体 程度 ， 而 不 会 失去 一 般 化 的 能 


def build arg parser(): 
parser = argparse.ArgumentParser (description='Trains the CRF classifier') 
parser.add_argument ("--c-value", dest="c value", required=False, type=float, 
default=1.0, help="The C value that will be used for training") 
return parser 


(3) 定义 一 个 处 理 所 有 与 CRF 相 关 处 理 的 类 : 


class CRFTrainer (object): 
(4) 定义 一 个 init 函 数 并 初始 化 其 值 : 


def _ init_ _(self, c_value, classifier name='ChainCRF'): 
self.c_ value = c_value 
self.classifier name = classifier name 


(5) 下 面 将 用 链 式 条 件 随机 场 来 分 析 数 据 。 这 里 需要 加 上 一 个 错误 检查 : 


if self.classifier name == 'ChainCRF': 
model = ChaincRF () 


(6) 定义 一 个 在 条 件 随 机 场 模 型 中 需要 用 到 的 分 类 器 。 这 里 用 支持 向 量 机 ( Support Vector 
Machine ) 来 实现 : 








self.clf = FrankWolfeSSVvM(model=model, C=self.c_value, max_iter=50) 
else: 
raise TypeError('Invalid classifier type') 


(7) 加 载 字 母 数据 集 。 这 个 数据 集 包 括 分 割 的 字母 以 及 和 其 相关 的 特征 向 量 。 因 为 已 经 有 了 
特征 向 量 , 所 以 不 需要 分 析 图 像 。 每 个 单词 的 首 字母 都 已 被 去 掉 , 所 以 剩 下 的 字母 都 是 小 写字 母 : 


def load_ datal(self): 
letters = load_letters() 


(8) 加 载 数 据 和 标签 到 其 相应 的 变量 : 


XxX, y, folds = letters['data'], letters['labels'], letters['folds'] 
XxX, y = np.array (X), np.array (y) 
return XxX, y, folds 


(9) 定义 一 个 训练 方法 : 


# X 是 由 样本 组 成 一 个 humpy 数 组 ， 每 个 样本 的 维度 是 (字母 ， 数 值 ) 
def train(self, Xx train, y_train): 
self.clf.fit (x train, y_train) 
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(10) 定义 一 个 方法 来 评价 模型 的 性 能 


def evaluate(self, X test, y_test): 
return self.clf.score(X test, ytest) 


(11) 定义 一 个 方法 ， 将 新 数据 进行 分 类 : 


# 对 输入 数据 运行 分 类 器 
def classify(self, input_data): 
return self.clf.predict (input_data) [0] 


(12) 这 些 字母 在 编号 的 数组 中 被 索引 。 为 了 检查 输出 并 将 其 变 得 可 读 ， 需 要 将 这 些 数字 转换 
为 字母 。 下 面 定义 一 个 函数 来 执行 这 样 的 转换 : 


def decoder (arr): 
alphabets = 'abcdefghijklmopqrstuvwxyz' 
GUL a 
foxr 1 in arr: 
output += alphabets[il] 
return output 


(13) 定义 main 函 数 并 解析 输入 参数 : 


ri name ==' main _': 
args = build arg_ parser() .parse_args() 
Cc_value = args.c_ value 


(14) 用 类 和 c 值 初始 化 变量 : 

crf = CRFTrainer(c_value) 
(15) 加 载 字 母 数据 : 

XxX, y, folds = crf.load_ data() 
(16) 将 数据 分 成 训练 数据 集 和 测试 数据 集 : 


XxX train, XxX test = X[folds == 1], X[folds != 1] 
train, yest, = YLfoLds. Ss... YLfOLdSs, e141] 











dm 





(17) 训练 CRF 模 型 : 


print "\nTraining the CRF model..." 
crf.train(X train, y_train) 


(18) 评价 CRF 模 型 的 性 能 


Score = crf.evaluate(X test, y_test) 
print "\nAccuracy Score =", str(round(score*100, 2)) + '%g' 


(19) 输入 一 个 随机 测试 向 量 ， 并 用 这 个 模型 预测 输出 : 
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print "\nTrue label =", decoder(y_test[0]) 
predicted output = crf.classify([X test[0]]) 
print "Predicted output =", decoder (predicted _ output) 





(20) 全 部 代码 已 经 包含 在 crf.py 文 件 中 。 运行 该 代码 , 可 以 看 到 在 命令 行 工具 中 显示 如 图 8-15 
所 示 的 输出 结果 。 正 如 你 看 到 的 ， 这 个 单词 应 该 是 “commanding”， 而 条 件 随机 场 模型 很 好 地 预 
测 了 这 个 结果 。 






































Training the CRF model... 


Accuracy Score = 78.05% 


True label = ommanding 
Predicted output = ommanging 





图 8-15 


8.8 ”用 隐 马 尔 科 夫 模型 分 析 股 票 市 场 数 据 


本 节 将 用 隐 马 尔 科 夫 模型 来 预测 股票 数据 。 股 票 市 场 数据 是 典型 的 时 间 序 列 数据 示例 ,其 数 
td 在 即将 用 到 的 数据 集中 , 可 以 看 到 各 个 公司 的 股票 数据 随时 间 的 波 
动情 况 。 隐 马尔 科 夫 模型 是 生成 模型 ,可 用 于 分 析 这 样 的 时 间 序 列 数据 。 这 一 节 将 用 这 些 模型 分 
ee 



































详细 步骤 
(D 创建 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 ; 





import datetime 


import numpy as np 

import matplotlib.pyplot as plt 

from matplotlib.finance import quotes_ historical yahoo_och]l 
from hmmlearn.hmm import GaussianHMM 


(2) 从 雅虎 财经 ( Yahoo finance ) 获取 股票 报价 。 在 matplotlib 库 中 有 一 个 函数 可 以 直接 加 载 : 








# 从 雅虎 财经 获取 股票 报价 
quotes = quotes_ historical yahoo_ochl ("INTC", datetime.date(1994, 4, 5), 
datetime.date(2015, 7, 3)) 


(3) 每 个 报价 包含 6 个 值 。 下 面 提取 相关 数据 ， 如 股票 的 收盘 价 和 一 定时 期 内 股票 的 成 交 量 : 


# 提取 需要 的 数值 

dates = np.array ([quote[0] for quote in quotes], dtype=np.int) 
closing_values = np.array([duote[2] for quote in quotes]) 
volume_of_shares = np.array ([quote[5] for quote in quotes])[1:] 

















eal 
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(4) 计算 每 天 收盘 价 的 变化 率 ， 用 这 个 变化 率 作 为 一 个 特征 : 


# 计算 每 天 收盘 价 的 变化 率 
Qiff percentage = 100.0 * np.diff(closing values) / closing_ values[:-1] 


dates = dates[1:] 
(5) 将 两 个 数组 进行 列 堆 琶 ， 以 用 作 训 练 : 
# 将 变化 率 与 交易 量 组 合 起 来 


X = np.column_ stack([diff percentage, volume of_shares]) 


(6) 用 5 个 成 分 训练 隐 马 尔 科 夫 模型 : 
# 创建 并 训练 高 斯 HMM 模 型 
Drint” "Nnmwainindg HMM. a. 


model = GaussianHMM(n_ components=5, covariance type="diag", n_ iter=1000) 


model .fit (Xx) 


(7) 生成 500 个 示例 数据 用 于 训练 隐 马 尔 科 夫 模 型 ， 并 将 其 画 出 : 


# 用 模型 生成 数据 
num_samples = 500 
samples, _ = model.sample (num_ samples) 


plt.plot (np.arange (num_ samples), samples[:,0], c='black') 


plt.show!() 


(8) 全 部 代码 已 经 包含 在 hmm_stock.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 8-16 所 示 的 图 像 。 





© Figure 1 
























































图 8-16 
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图 像 内 容 分 析 








在 这 一 音 ， 我 们 将 介绍 以 下 主题 : 


口 用 OpenCV-Pyhon 操 作 图 像 

口 检测 边 

口 直方 图 均衡 化 

口 检测 棱角 

口 检测 SIFT 特 征 点 

口 创建 Star 特 征 检测 需 

口 利用 视觉 单词 码 本 和 向 量 量化 创建 特征 
口 用 极端 随机 和 森林 训练 图 像 分 类 器 

口 创建 一 个 对 象 识别 器 














9.1 简介 


计算 机 视觉 是 一 个 研究 如 何 处 理 、 分 析 和 理解 视觉 数据 内 容 的 领域 。 在 图 像 内 容 分 析 中 , 会 
用 到 很 多 计算 机 视觉 算法 来 构建 我 们 对 图 像 对 象 的 理解 。 计 算 机 视觉 包括 很 多 方面 的 图 像 分 析 ， 
例如 目标 识别 、 形 状 分 析 、 姿 态 估计 、3D 建 模 、 视 觉 搜 索 等 。 人 类 非常 擅长 鉴定 和 识别 其 周边 
的 事物 ， 而 计算 机 视觉 的 终极 目标 就 是 用 计算 机 准确 地 模拟 人 类 的 视觉 系统 。 


计算 机 视觉 包括 多 个 级 别 的 分 析 。 在 低级 视觉 分 析 领 域 , 计算 机 视觉 可 以 进行 像素 处 理 , 例 
如 边 检 测 、 形 态 处 理 和 光 流 。 在 中 级 和 高 级 视觉 分 析 领 域 , 计算 机 视觉 可 以 处 理事 物 , 例如 物体 
识别 、3D 建 模 、 运 动 分 析 以 及 其 他 方面 的 视觉 数据 。 随 着 分 析 层 次 的 深入 ， 我 们 会 对 视觉 系统 
的 各 个 概念 钻研 得 更 加 深入 ， 并 基于 活动 和 意图 提取 出 对 视觉 数据 的 描述 。 值 得 注意 的 一 点 是 ， 
高 层次 的 分 析 往 往 依赖 低层 次 分 析 的 输出 结果 。 

关于 计算 机 视觉 最 常见 的 一 个 问题 是 “计算 机 视觉 与 图 像 处 理 有 什么 不 同 "。 图 像 处 理 是 在 
像素 级 别 对 图 像 进行 变换 。 图 像 处 理 系统 的 输入 和 输出 都 是 图 像 ， 常用 的 图 像 处 理 有 边 检 测 、 直 
方 图 均衡 化 或 图 像 压缩 。 计 算 机 视觉 算法 大 量 依赖 了 图 像 处 理 算法 来 执行 其 任务 。 在 计算 机 视觉 
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领域 , 我 们 还 处 理 更 复杂 的 事情 ， 例 如 在 概念 层级 理解 视觉 数据 , 期望 借 此 帮助 自己 构建 对 图 像 
对 象 更 有 意义 的 描述 。 计 算 机 视觉 系统 的 输出 是 给 定 图 像 的 3D 场 景 的 描述 ， 这 样 的 描述 可 以 是 
各 种 形式 的 ， 而 这 取决 于 你 的 需要 。 


这 一 章 将 用 到 OpenCV 库 来 分 析 图 像 。OpenCV 是 世界 上 最 受 欢 迎 的 计算 机 视觉 库 。 由 于 
OpenCV 已 经 为 各 种 不 同 的 平台 进行 了 高 度 优化 ， 它 已 然 成 为 业界 的 事实 标准 。 在 继续 学 习 接 下 
来 的 内 容 之 前 ， 请 确保 在 Python 的 支持 下 安装 了 这 个 库 。 你 可 以 在 http:/opencv'org 下 载 并 安装 
OpenCV。 有 关 各 种 操作 系统 的 详细 安装 说 明 ， 可 以 参考 网 站 的 文档 部 分 。 





























9.2 用 OpenCV-Pyhon 操作 图 像 


下 面 看 看 如 何 用 OpenCV-Python 操 作 图 像 。 这 一 节 将 介绍 如 何 加 载 并 展示 图 像 ， 并 介绍 如 何 
裁剪 、 调 整 大 小 以 及 将 图 像 保 存 到 输出 文件 中 。 


详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import sys 


import cv2 
import numpy as np 


(2) 指定 输入 图 像 为 文件 的 第 一 个 参数 ， 并 使 用 图 像 读 取 函数 来 读 取 参数 。 这 个 例子 中 将 用 
到 forest.jpg: 





# 加 载 并 显示 图 像 forest .jpg 
input_file = sys.argv[1] 
img = cv2.imread (input_file) 


(3) 显示 输入 图 像 : 











cV2 .imshow('Original'，img) 
(4) 现在 裁剪 该 图 像 。 提 取 输 入 图 像 的 高 度 和 宽度 ， 然 后 指定 边界 ; 
# 裁剪 图 像 





h, w = img.shape[:2] 
start_row, engd_ row = int (0.21*h), int (0.73*h) 
start_col, engd col= int (0.37*w), int (0.92*w) 


(5) 用 NumPy 式 的 切 分 方式 裁剪 图 像 ， 并 将 其 展示 出 来 : 


img_cropped = img[start_ row:end _ row, start_col:end coll] 
Cv2.imshow('Cropped', img_cropped) 


(6) 将 图 像 大 小 调整 为 其 原始 大 小 的 1.3 倍 ， 并 将 其 展示 出 来 : 
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# 调整 图 像 大 小 

SCLINo Factor :1.23 

img_scaled = cv2.resize(img, None, fx=scaling_factor, fy=scaling_ factor., 
interpolation=cv2.INTER_LINEAR) 

Cv2.imshow('Uniform resizing', img_scaled) 


(7) 之 前 的 方法 将 均匀 地 在 两 个 维度 上 扩展 图 像 。 假 定 我 们 希望 仅 在 某 一 个 维度 进行 调整 ， 
可 以 用 以 下 代码 实现 : 


img_scaled = cv2.resize(img, (250, 400), interpolation=cv2.INTER_ AREA) 
Cv2.imshow('Skewed resizing', img_scaled) 


(8) 将 图 像 保存 到 输出 文件 : 


# 保存 图 像 
output_file = input_file[:-4] + '_cropped.jpg' 
cv2.imwrite(output_file, img_cropped) 











Cv2 .waitKey () 
(9) waitKey 函 数 保持 显示 图 像 ， 直 到 按 下 键盘 上 的 任 一 个 按键 。 


(10) 全 部 代码 已 经 在 operating_on_images.py 文 件 中 给 出 。 运行 该 代码 , 可 以 看 到 如 图 9-1 所 示 
的 输入 图 像 。 








Original 





图 9-1 
(11) 第 二 幅 输出 图 像 是 裁剪 后 的 图 像 ， 如 图 9-2 所 示 。 
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图 9-2 
(12) 第 三 幅 图 像 是 从 两 个 维度 均匀 地 调整 大 小 后 的 图 像 ， 如 图 9-3 所 示 。 





Uniform resizing 








图 9-3 
(13) 第 四 幅 图 像 是 仅 从 一 个 维度 调整 大 小 后 的 图 像 ， 如 图 9-4 所 示 。 
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Skewed resizing 








图 9-4 


9.3 ”检测 边 


边 检测 是 计算 机 视觉 中 最 常用 到 的 技术 之 一 , 常用 在 很 多 应 用 的 预 处 理 过 程 中 。 接 下 来 介绍 
如 何 用 不 同 的 边 检 测 絮 检测 输入 图 像 的 边 。 





详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import sys 


import cv2 
import numpy as np 


(2) 加 载 输入 图 像 ， 本 例 用 到 chairjpg: 


# 加 载 输 入 图 像 chair .jpg， 转 换 成 灰 度 图 
input_file = sys.argv[1] 
img = cv2.imread(input_file, cv2.IMREAD GRAYSCALE) 
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(3) 提取 输入 图 像 的 高 度 和 宽度 : 
h, w = img.shape 


(4) 索 贝尔 滤波 器 ( Sobel filter ) 是 一 种 边 检 测 器 ， 它 使 用 3 x 3 内 核 来 检测 水 平 边 和 垂直 边 。 
你 可 以 在 http:/www.tutorialspoint.comy/dip/sobel _ operatorhtm 查 看 到 更 多 索 贝 尔 滤波 器 的 信息 。 先 
运行 索 贝尔 水 平 检测 器 : 

















加 














sobel_horizontal = cv2.Sobel (img, cv2.CV_64F, 1, 0, ksize=5) 


(5) 运行 索 贝 尔 生 直 检测 器 : 











sobel_vertical = cv2.Sobel (img, cv2.CV_64F, 0, 1, ksize=5) 


(6) 拉 普 拉 斯 边 检 测 器 ( Laplacian edge detector ) 可 以 检测 两 个 方向 上 的 边 。 你 可 以 在 
http:/homepages.infed.ac.ukrbBHIPR2/log.htm 找 到 更 多 相关 介绍 。 定 义 拉 普 拉 斯 边 检测 器 如 下 : 














laplacian = cv2.Laplacian(img, cv2.CV_64F) 

(7) 尽管 拉 普 拉 斯 边 检 测 右 弥补 了 索 贝 尔 边 检测 器 的 不 足 ， 但 是 拉 普 拉 斯 边 检 测 器 的 输出 仍 
然 带 有 很 多 噪声 。Canny 边 检测 器 ( Canny edge detector ) 在 解决 噪声 问题 方面 优 于 拉 普 拉 斯 边 检 
测 器 和 索 贝尔 边 检 测 器 。Canny 边 检测 器 是 一 个 分 阶段 的 处 理 过 程 ， 它 用 到 了 人 述 澡 性 来 做 边 数 据 
清理 。 你 可 以 在 http:/homepages.infed.ac.ukrbVYHIPR2/cannyhtm 了 解 更 多 相关 细节 : 

































































canny = cv2.Canny (img, 50, 240) 


(8) 显示 所 有 的 输出 图 像 : 





CV2 .imshow 
CVv2 .imshow 


('Original', img) 

('Sobel horizontal', sobel_ horizontal) 
Cv2.imshow('Sobel vertical', sobel_vertical) 
Cv2.imshow('Laplacian', laplacian) 
cv2.imshow('Canny', canny) 


Cv2 .waitKey () 


(9) 全 部 代码 已 经 在 edge_detector.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 原始 输入 图 像 如 
9-5 所 示 。 








Original 














图 9-5 





它 到 检测 到 的 边 大 致 都 是 垂直 的 ， 


它 能 检测 出 在 水 平方 向 上 的 变化 。 





L 


是 索 贝 尔 水 平 边 检测 如 


(10) 如 图 9-6 所 示 


这 是 因为 它 是 


个 水 平 边 检 测 需 ， 
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(11) 索 贝 尔 垂直 边 检测 器 的 输出 如 图 9-7 所 示 。 





Sobel vertical 





图 9-7 


(12) 如 图 9-8 所 示 是 拉 普 拉 斯 边 检 测 器 的 输出 。 




















Laplacian 
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(13) Canny 边 检测 需 较 好 地 检测 出 了 所 有 的 边 ， 如 图 9-9 所 示 。 





Canny 





9.4 ”直方 图 均衡 化 


直方 图 均衡 化 是 指 修改 图 像 的 像素 以 增强 图 像 的 对 比 强度 的 过 程 。 人 的 眼睛 喜欢 对 比 , 这 也 
是 为 什么 几乎 所 有 的 照相 机 系统 都 会 用 直方 图 均衡 化 来 使 图 像 更 好 看 。 有 趣 的 是 , 直方 图 均衡 化 
过 程 不 同 于 彩色 图 像 的 灰 度 化 过 程 ,在 处 理 彩 色 图 像 时 有 一 个 问题 ,在 这 一 节 的 介绍 中 将 会 提 到 。 
接 下 来 具体 介绍 如 何 实现 直方 图 均衡 化 。 
























































详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import sys 


import cv2 
import numpy as np 


(2) 加 载 输入 图 像 。 这 个 例子 将 用 到 sunrise.jpg: 
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# 加 载 输入 图 像 sunrise.jpg 
input_file = sys.argv[1] 
img = cv2.imread (input_file) 


(3) 将 图 像 转 为 灰 度 并 将 其 显示 出 来 : 


# 转化 为 灰 度 图 
img_gray = Cv2.cvtColor(img, cv2 .COLOR_ BGR2GRAY) 
cv2.imshow('Input grayscale image', img_gray) 


(4) 均衡 灰 度 图 像 的 直方 图 ， 并 将 其 显示 出 来 : 
# 均衡 直方 图 


img_gray_histeq = cv2.equalizeHist (img_gray) 
cvV2 .imshow('Histogram equalized - grayscale', img_gray_histeq) 


(5) 为 了 均衡 彩色 图 像 的 直方 图 ， 需 要 用 到 不 同 于 以 上 的 步 又 。 直 方 图 均衡 化 仅 适 用 于 亮度 
通道 。 一 个 RGB 图 像 由 3 个 颜色 通道 组 成 ， 因 此 不 能 对 这 些 通道 单独 地 做 直方 图 均衡 化 。 在 做 其 
他 操作 之 前 , 需要 将 强度 信息 从 颜色 信息 中 分 离 出 来 。 因 此, 首先 将 其 转换 到 YUV 色 彩 空间 , 均 
衡 Y 通 道 ， 然 后 将 其 转换 回 RGB 并 得 到 输出 。 更 多 关于 YUV 色 彩 空间 的 详细 介绍 可 查看 
http://softpixel.com/~cwright/programming/colorspace/yuv。OpenCV 默 认 用 BGR 格 式 加 载 图 像 ， 
此 需要 先 将 其 从 BGR 转 化 为 YUV: 


# 均衡 彩色 图 像 的 直方 图 
img_yuv = cv2 .cvtColor (1img，cVv2 .COLOR_BGR2YUV) 












































(6) 均衡 Y 通 道 ; 
img_yuv[:,:,0] = cv2.equalizeHist (img_yuv[:,:,0]) 
(7) 将 其 转换 回 BGR: 


img_histeq = cv2.cvtColor(img_ yuv，cv2 .COLOR_YUV2BGR) 


cv2.imshow('Input color image', img) 9 


Cv2.imshow('Histogram equalized - color', img_histeq) 








CV2 .waitKey () 


(9) 全 部 代码 在 已 经 histogram_equalizer.py 文 件 中 给 出 ， 运 行 该 代码 ， 可 以 看 到 原始 输入 图 像 
如 图 9-10 所 示 。 








Input grayscale image 






图 9-10 


(10) 直方 图 均衡 化 处 理 后 的 图 像 如 图 9-11 所 示 。 





Histogram equalized - grayscale 


图 9-11 


9.5 “检测 棱角 


棱角 检测 是 计算 机 视觉 中 的 一 个 重要 环节 , 它 帮 助 我 们 识别 图 像 中 突出 的 点 。 这 是 用 于 开发 
图 像 分 析 系 统 中 最 早期 的 特征 提取 技术 之 一 。 
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详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import sys 


import cv2 
import numpy as np 


(2) 加 载 输入 图 像 。 本 例 将 用 到 box.png: 


# 加 载 图 像 box.png 

input_file = sys.argv[1] 

img = cv2.imread (input_file) 
cv2.imshow('Input image', img) 


(3) 将 图 像 转 为 灰 度 ， 并 将 其 强制 转换 为 浮 点 值 。 浮 点 值 将 用 于 棱角 检测 过 程 


img_gray 
img_gray 


(4) 对 灰 度 图 像 运 行 哈里 斯 角 检 测 器 ( Harris corner detector ) 函数 。 你 可 以 在 http://docs.opencv. 
org/3.0-beta/doc/py_tutorials/py_feature2d/py_features_harris/py_features_harris.html 查 看 更 多 哈里 
斯 角 检 测 器 的 详细 介绍 


# 哈里 斯 角 检 测 器 
img_harris = cv2.cornerHarris (img_gray, 7, 5, 0.04) 


(5) 为 了 标记 楼 角 ， 需 要 放大 图 像 : 


# 放大 图 像 以 标记 棱角 


img_harris = cv2.dilate(img _ harris, None) 


(6) 定义 显示 重要 点 个 数 的 浆 值 : 


# 用 阀 值 显 示 棱 角 


img[img_ harris > 0.01 * img_ harris.max()] = [0, 0, 0] 9 


(7) 显示 输出 图 像 : 


cv2.imshow('Harris Corners', img) 
CV2 .waitKey () 


(8) 全 部 代码 已 经 在 corner_detector.py 文 件 中 给 出 。 运 行 该 代码 ,可 以 看 到 原始 输入 图 像 如 图 
9-12 所 示 。 











CVv2 .cvtColor (img, cv2 .COLOR_ BGR2GRAY) 
np.float32 (img_gray) 
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Input image 











9-12 


(9) 检测 棱角 处 理 后 的 图 像 如 图 9-13 所 示 。 





Harris Corners 











图 9-13 


9.6 检测 SIFT 特征 点 


尺度 不 变 特 征 变换 ( Scale Invariant Feature Transform，SIFT ) 是 计算 机 视觉 领域 最 常用 的 特 
征 之 一 。David Lowe 首 次 在 其 论文 中 提出 该 特征 ， 具 体 可 参考 https:/www.cs.ubc.ca/~lowe/ 
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papers/ijcv04.pdf。 此 后 ，SIFT 成 为 图 像 识别 和 图 像 内 容 分 析 领 域 最 有 效 的 特征 之 一 ， 它 在 大 小 、 
方向 、 对 比 度 等 方向 都 有 较 强 的 健壮 性 。SIFT 也 是 目标 识别 系统 的 基础 。 接 下 来 介绍 如 何 检测 这 
些 特征 点 。 





详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import sys 


import cv2 
import numpy as np 


(2) 加 载 输入 图 像 。 本 例 将 用 到 table.jpg: 
# 加 载 图 像 table.jpg 


input_file = sys.argv[1] 
img = cv2.imread (input_file) 


(3) 将 图 像 转 为 灰 度 : 
img_gray = Cv2.cvtColor(img, cv2 .COLOR_ BGR2GRAY) 
(4) 初始 化 SIFT 检 测 器 对 象 并 提取 关键 点 : 


sift = cV2.xfeatures2dq.SIEFT_create() 
keypoints = sift.detect (img_gray, None) 


(5) 上 面 所 说 的 关键 点 是 指 突出 的 点 ,但 它们 并 不 是 特征 。 这 基本 上 指出 了 突出 点 的 位 置 。 
SIFT 还 可 以 作为 非常 有 效 的 特征 提取 器 ， 这 一 点 将 在 后 面 的 某 一 节 中 介绍 。 


(6) 在 输入 图 像 上 画 出 关键 点 : 




















img_sift = np.copy (img) 
Cv2 .drawKeypoints (img, keypoints, img_sift, flags=cv2.DRAW_ 
MATCHES_FLAGS_DRAW_RICH_ KEYPOINTS) 


(7) 显示 输入 和 输出 图 像 : 











cv2.imshow('Input image', img) 
cv2.imshow('SIFT features', img_sift) 
CV2 .waitKey () 


(8) 全 部 代码 已 经 在 feature_detector.py 文 件 中 给 出 。 运行 该 代码 , 可 以 看 到 原始 输入 图 像 如 图 
9-14 所 示 。 








Input image 

















[@@@ SIFT features 














9.7 创建 Star 特征 检测 器 


SIFT 特 征 检测 器 在 很 多 场景 中 都 很 好 用 , 但 是 ， 当 创建 目标 识别 系统 时 , 在 用 SIFT 检 测 特征 
之 前 , 可 能 需 要 用 到 一 个 不 同 的 特征 检测 器 , 这 使 我 们 能 够 通过 灵活 地 层 受 不 同 的 模块 来 获得 最 
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佳 的 性 能 。 这 一 万 将 用 到 Star 特 征 检测 器 ( Star feature detector )， 查 看 其 性 能 表现 。 


详细 步 又 
(1) 创建 一 个 Python 文 件 ， 并 导入 以 下 程序 包 : 


import sys 


import cv2 
import numpy as np 


(2) 定义 一 个 类 ， 用 于 处 理 与 Star 特 征 检 测 相 关 的 函数 : 


class StarFeatureDetector (object): 
def _ init_ _ (self) : 
self.detector = cv2.xfeatures2d.StarDetector. create() 


(3) 定义 一 个 对 输入 图 像 运 行 检测 絮 的 函数 : 


def detect (self, img): 
return self.detector.detect (img) 


(4) 在 main 函 数 中 加 载 输入 图 像 。 本 例 将 用 到 table.jpg: 


if name =='_ main 
# 加 载 图 像 table.jpg 
input_file = sys.argv[1] 
input_img = cv2.imread (input_file) 


(5) 将 图 像 转 为 灰 度 : 


# 转 为 灰 度 图 
img_gray = 


(6) 用 Star 特 征 检测 需 检 测 出 特征 : 


# 用 Staz 特 征 检测 器 检测 出 特征 


keypoints = StarFeatureDetector() .detect (input_img) 
(7) 画 出 输入 图 像 的 关键 点 : 


Cv2.drawKeypoints (input_img, keypoints, input_img, 
flags=cv2 .DRAW_MATCHES_FLAGS_DRAW_RICH_ KEYPOINTS) 


(8) 显示 输出 图 像 : 











cvV2 .cvtColor (input_img, cv2.COLOR_ BGR2GRAY) 











cv2.imshow('Star features', input_img) 
Cv2 .waitKey () 


(9) 全 部 代码 已 经 在 star_detector.py 文 件 中 给 出 。 运 行 该 代码 , 可 以 看 到 原始 输入 图 像 如 图 9-16 
所 示 。 
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图 9-16 


9.8 利用 视觉 码 本 和 向 量 量化 创建 特征 


为 了 创建 一 个 目标 识别 系统 , 需要 从 每 张 图 像 中 提取 特征 向 量 。 每 张 图 像 需 要 有 一 个 识别 标 
志 ， 以 用 于 匹配 。 我 们 用 一 个 叫 视 觉 码 本 的 概念 来 创建 图 像 识 别 标志 。 在 训练 数据 集中 ， 这 个 码 
本 基本 上 是 一 个 字典 , 用 于 提出 关于 图 像 的 描述 。 我 们 用 向 量 量化 方法 将 很 多 特征 点 进行 聚 类 并 
得 出 中 心 点 。 这 些 中 心 点 将 作为 视觉 码 本 的 元 素 , 更 详细 的 介绍 可 以 参考 http://mi.eng.cam.ac.uk/~ 
cipolla/lectures/PartIB/old/IB-visualcodebook.pdf。 


在 开始 接 下 来 的 学 习 之 前 ， 请 确保 你 已 经 有 一 些 训练 图 像 。 本 例 提供 了 包含 3 个 类 的 示例 训 
练 数据 集 ， 每 一 类 包含 20 幅 图 像 ， 这 些 图 像 可 以 在 http://www.vision.caltech.edu/html-files/ 
archive.html 下 载 。 


为 了 创建 一 个 健壮 的 目标 识别 系统 , 你 需要 数 万 幅 图 像 。 该 领域 有 一 个 非常 著名 的 数据 集 叫 
Caltech256, 它 包括 256 类 图 像 , 每 一 类 都 包含 上 干 幅 示 例 图 像 。 你 可 以 在 http://www.vision.caltech. 
edu/Image_Datasets/Caltech256 下 载 该 数据 集 。 











详细 步骤 


(1) 这 是 一 个 比较 长 的 例子 , 因此 这 里 仅 介绍 一 些 重点 函数 。 全 部 代码 已 经 在 build_features.py 
文件 中 给 出 。 下 面 先 定 义 一 个 提取 特征 的 类 : 


class FeatureBuilder (object): 
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0 村 征 的 方法 。 下 面 将 用 Star 检 测 需 获得 关键 点 ,然后 用 SIFT 提 取 
这 些 位 置 的 描述 信息 : 








def extract_features(self, img): 
keypoints = StarFeatureDetector() .detect (img) 
keypoints, feature vectors = compute_ sift_ features (img, keypoints) 
return feature vectors 


(3) 从 描述 言 息 中 提取 出 中 ， 心 点 : 


def get_codewords (self, input map, scaling_ size，max_samples=12) : 
keypoints_all = [] 


count = 0 
GUE GLass: = "7? 


(4) 每 幅 图 像 都 会 生成 大 量 的 描述 信息 。 这 里 将 仅 用 一 小 部 分 图 像 ， 因 为 这 些 中 心 点 并 不 会 
发 生 很 大 的 改变 : 
for item in input_map: 
if count >= max_samples: 
if cur_class != item['object_ class']: 
count = 0 


else: 
continue 


count += 1 
(5) 将 进程 打印 出 来 : 


if count == max_samples: 
print " Built centroids for", item['object_class'] 


(6) 提取 当前 标签 
cur_class = item['object_class'] 
(7) 读 取 图 像 并 调整 其 大 小 : 


img = cv2.imread(item['image_path']) 
img = resize image (img, scaling_size) 


(8) 设置 维度 数 为 128 并 提取 特征 : 








num dims = 128 
feature_ vectors = self.extract_features (img) 
keypoints_all.extend(feature_ vectors) 


(9) 用 向 量 量化 来 量化 特征 点 。 向 量 量化 是 一 个 N 维 的 “四 侈 五 人 ”， 更 多 详细 介绍 可 参考 


http:/www.data-compression.com/vqg.shtml: 





kmeans, centroids = BagOfWords().cluster (keypoints_all) 
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return kmeans, centroids 


(10) 定义 一 个 类 来 处 理 词 袋 模型 和 向 量 量化 : 











class BagOfWords (object): 
def _ init__(self, num clusters=32): 
self.num dims = 128 
self.num clusters = num clusters 
self.num retries = 10 


(11) 定义 一 个 方法 来 量化 数据 点 。 下 面 将 用 k-means 聚 类 来 实现 : 


def cluster(self, datapoints): 
kmeans = KMeans (self.num clusters, 
n_init=max(self.num retries, 1), 
max_iter=10, tol=1.0) 


(12) 提取 中 心 点 : 


res = kmeans.fit (datapoints) 
centroids = res.cluster_centers_ 
return kmeans, centroids 


(13) 定义 一 个 方法 来 归 一 化 数据 : 


def normalize(self, input_data): 
sum_input = np.sum(input_data) 


if sum input > 0: 

return input_data / sum input 
else: 

return input_data 


(14) 定义 一 个 方法 来 获得 特征 向 量 : 





def construct_feature(self, img, kmeans, centroids): 
keypoints = StarFeatureDetector() .detect (img) 
keypoints, feature vectors = compute_ sift_ features (img, keypoints) 
labels = kmeans.predict (feature vectors) 
feature_ vector = np.zeros(self.num clusters) 


(15) 创建 一 个 直方 图 并 将 其 归 一 化 : 





for i, item in enumerate(feature vectors): 
feature vector[labels[i]] += 1 


feature_ vector_img = np.reshape (feature _ vector, 
((1, feature_ vector.shape[0]))) 
return self.normalize(feature vector_img) 


(16) 定义 一 个 方法 来 提取 SIFT 特 征 : 


# 提取 SIFT 特 征 
def compute_ sift_ features (img, keypoints): 
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if img is None: 
raise TypeError('Invalid input image') 


img_gray = 
keypoints, 
keypoints) 


CVv2 .cvtColor (img, 
descriptors = cv2. 


return keypoints, descriptors 


正如 之 前 提 到 的 ， 全 部 代码 可 参考 build_features.py 文 件 。 可 以 用 以 下 方式 来 运行 代码 : 


CV2 .COLOR_BGR2GRAY) 
xfeatures2d.SIFT_ create() .compute (img_gray, 


$ Python build features.py --data-folder /path/to/training images/ --codebook-file 
codebook .pkl --feature-map-file feature map.pkl 


结果 将 产生 两 个 文件 ， 分 别 为 codebook.pkl1 和 feature map.pkl。 下 一 节 中 将 用 到 这 两 个 文件 。 





9.9 用 极端 随机 森林 训练 图 像 分 类 器 


本 节 将 用 极端 随机 森林 ( Extremely Random Forests ，ERF ) 来 训练 图 像 分 类 器 。 一 个 目标 识 
别 系统 就 是 利用 图 像 分 类 器 将 图 像 分 到 已 知 的 类 别 中 。ERF 在 机 器 学 习 领 域 非常 流行 ， 因 为 ERF 




















具有 较 快 的 速度 和 比较 精确 的 准确 度 。 我 们 基于 图 像 的 特征 构建 一 组 决策 树 ,并 通过 训练 这 个 森 


林 实 现 正 确 决 策 。 更 多 随机 森林 的 详细 内 容 可 参考 https://www.stat.berkeley.edu/~breiman/ 
RandomForests/cc_home.htm ， 更 多 ERF 的 内 容 可 参考 http:/www.montefiore.ulg.ac.be/~ernstuploads/ 
news/id63/extremely-randomized-trees.pdf。 


详细 步骤 


import argparse 


import cPickle as pickle 


import numpy as np 


电 


(1) 创建 一 个 Python 文件 ， 并 且 导 入 以 下 程序 包 : 


由 





from sklearn.ensemble import ExtraTreesClassifier 
from sklearn import preprocessing 


(2) 定义 一 个 参数 解析 器 : 


def build arg_ parser(): 
parser = argparse.ArgumentParser (description='Trains the classifier') 
parser.add_argument ("--feature-map-file", dest="feature map_file", 


required=True, 


help="Input pickle file containing the feature map") 
parser.add argument ("--model-file", dest="model_ file", required=False, 
help="Output file where the trained model will be stored") 


return parser 


(3) 定义 一 个 类 来 处 型 


EERF 训 | 练 。 这 里 将 月 

















到 一 个 标签 编码 需 来 对 训练 标签 进行 编码 : 
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class ERFTrainer (object): 
def _ init__(self, XxX, label_ words): 
self.le = preprocessing.LabelEncoder () 
self.clf = ExtraTreesClassifier(n estimators=100, max_depth=16, 
random_state=0) 


(4) 对 标签 编码 并 训练 分 类 器 : 


y = Self.encodqe_labels(1Llabel_words) 
self.clf.fit (np.asarray (X), y) 


(5) 定义 一 个 浮 数 ， 用 于 对 标签 进行 编码 : 




















def encode_ labels(self, label_ words): 
self.le.fit (label_ words) 
return np.array (self.le.transform(label_ words), dtype=np.float32) 


(6) 定义 一 个 函数 ， 用 于 将 未 知 数据 点 进行 分 类 : 


def classify(self, xXx): 
label_ nums = self.clf.predict (np.asarray (X)) 
label words = self.le.inverse transform([int (x) for x in label_ nums]) 
return label_words 


(7) 定义 main 函 数 并 解析 输入 参数 : 


if name =='_ main _': 
args = build arg parser() .parse _ args() 
feature map_file = args.feature map_file 
model_file = args.model_file 


(8) 加 载 上 一 节 中 生成 的 特征 地 图 : 
# 加 载 特 征地 图 


with open(feature map_file, 'r') as f: 
feature map = pickle.1load!(f) 








(9) 提取 特征 向 量 : 


# 提取 特征 向 量 和 标记 


label words = [x['object_ class'] for x in feature map] 
dim size = feature map[0] ['feature _ vector'] .shapel[1] 
xX = [np.reshape (x['feature vector'], (dim size,)) for x in feature_map] 


(10) 基于 训练 数据 训练 ERF: 


# 训练 ERF 分 类 器 
erf = ERFTrainer (X, label_ words) 


(11) 保存 训练 的 ERF 模 型 ; 


if args.model_file: 
with openl(args.model_ file, 'w') as f: 
pickle.dump (erf, f£) 
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(12) 全 部 代码 已 经 在 trainer.py 文 件 中 给 出 。 可 以 用 以 下 方式 运行 代码 : 
$ python trainer.py --feature-map-file feature map.pkl --model- file erf.pkl 


结果 将 产生 一 个 erf.pkl 文 件 。 下 一 方 中 将 用 到 该 文件 。 


9.10 创建 一 个 对 象 识别 器 
训练 好 一 个 ERF 模 型 后 ， 接 下 来 创建 一 个 目标 识别 器 ， 该 识别 器 可 以 识别 未 知 图 像 的 内 容 。 








详细 步骤 


(1) 创建 一 个 Python 文件 ， 并 且 导 入 以 下 程序 包 : 


由 








import argparse 

import cPickle as pickle 
import cv2 

import numpy as np 

import build_ features as bf 
from trainer import ERFTrainer 


(2) 定义 一 个 参数 解析 器 : 


def build arg_ parser(): 
parser = argparse.ArgumentParser (description='Extracts features \ 
from each line and classifies the data') 


parser.add_argument ("--input-image", dest="input_image", required=True, 
help="Input image to be classified") 

parser.add_argument ("--model-file", dest="model_ file", required=True, 
help="Input file containing the trained model") 

parser.add_argument ("--codebook-file", dest="codebook_ file"， 


required=True, help="Input file containing the codebook") 
return parser 


(3) 定义 一 个 类 来 处 理 图 像 标签 提取 函数 : 





class ImageTagExtractor (object): 
def _ init__(self, model_ file, codebook_ file): 
with open(model_file, 'r') as f: 
self.erf = pickle.load(f) 


with open(codebook_ file, 'r') as f: 
self.kmeans, self.centroids = pickle.load(f) 


(4) 定义 一 个 函数 ， 用 于 使 用 训练 好 的 ERF 模 型 来 预测 输出 : 





def predict (self, img, scaling_ size): 
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img = bf.resize image (img, scaling_ size) 

feature_ vector = bf.BagOfWords() .construct_featurel( 
img, self.kmeans, self.centroids) 

image_tag = self.erf.classify (feature vector)[0] 

return image tag 


(5) 定义 main 函 数 ， 加 载 输 入 图 像 : 


生生 name, = 





args = build arg parser() .parse args() 
model_file = args.model_ file 
Codebook_file = args.codebook_file 
input_image = cv2.imread(args.input_image) 


(6) 合理 地 调整 图 像 大 小 : 
scaling_size = 200 
(7) 在 命令 行 打印 输出 结 


print "\nOutput:", ImageTagExtractor (model_ file, 
Codebook_file) .predict (input_image, scaling_ size) 


(8) 全 部 代码 已 经 在 object_recognizer.py 文 件 中 给 出 。 可 以 用 以 下 方式 运行 代码 : 


$ python object recognizer.py --input-image imagefile.jpg --model- file erf.pkl 
--Codebook-file codebook .pk1 


可 以 看 到 命令 行 工具 中 输出 的 类 。 


人 脸 识 别 








在 这 一 章 ， 我 们 将 介绍 以 下 主题 : 


口 从 网 络 摄像 头 采集 和 处 理 视频 信息 

口 用 Haar 级 联 创建 一 个 人 脸 识 别 器 

口 创建 一 个 眼睛 和 鼻子 检测 器 

口 做 主 成 分 分 析 

口 做 核 主 成 分 分 析 

口 做 盲 源 分 离 

口 用 局 部 二 值 模式 直方 图 创建 一 个 人 脸 识别 器 




















10.1 简介 


人 脸 识 别 是 指 在 给 定 图 像 中 识别 某 个 人 的 工作 , 它 不 同 于 从 给 定 图 像 中 定位 人 脸 位 置 的 人 脸 
检测 。 在 人 脸 检 测 中 ,我 们 不 关心 这 个 人 是 谁 ， 只 需要 识别 包含 脸 部 的 图 像 区 域 。 因 此 ,在 一 个 
典型 的 生物 人 脸 识 别 系 统 中 ， 需 要 在 识别 脸 部 之 前 确定 脸 部 的 位 置 。 


人 脸 识别 对 人 类 来 说 非常 容易 ， 毫 不 费力 就 可 以 做 到 , 并且 我 们 一 直 都 在 这 样 做 , 但 是 如 何 
才能 让 机 融 做 同样 的 事情 呢 ? 我 们 需要 了 解 会 利用 脸 部 的 哪个 部 分 来 识别 一 个 人 。 人 类 的 大 脑 有 
一 个 内 部 结构 ， 它 似乎 可 以 对 特定 的 特征 做 出 相应 的 反应 ， 例 如 边 、 角 度 、 情 绪 等 。 人 类 的 视觉 
皮层 将 这 些 特征 综合 起 来 ,做 出 一 个 连贯 性 推断 。 如 果 和 希望 机 器 也 能 同样 精确 地 识别 人 脸 , 那 就 
需要 用 同样 的 方式 模拟 这 个 问题 。 下 面 需 要 从 输入 的 图 像 中 提取 相关 特征 , 并 把 它 转换 成 一 个 有 
意义 的 表示 形式 。 



































10.2 ”从 网 络 摄像 头 采 集 和 处 理 视频 信息 


本 节 将 用 网 络 摄像 头 采集 视频 数据 。 下 面 来 看 如 何 用 OpenCV-Python 从 网 络 摄像 头 采集 视频 
信息 


Fo 
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详细 步骤 
(D 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import cv2 


(2) OpenCV 提 供 了 一 个 视频 采集 对 象 ， 可 以 利用 该 对 象 从 网 络 摄 像 头 采 集 图 像 。0 输 入 参数 
指定 网 络 摄像 头 的 ID。 如 果 连 接 的 是 USB 摄 像 头 ， 将 有 一 个 不 同 的 ID 


# 初始 化 网 络 摄像 头 
cap = cv2.VideoCapture(0) 


(3) 定义 网 络 摄像 头 采集 的 帧 的 比例 系数 : 


# 定义 网 络 摄像 头 采 集 图 像 的 比例 系数 


SCaLing factorns .0.5 


(4) 启动 一 个 无 限 循环 来 采集 帧 ， 直 到 按 下 Esc 键 。 从 网 络 摄像 头 读 取 帧 : 


# 循环 采集 直到 按 下 Esc 键 
while True: 
# 采集 当前 画面 
ret, frame = cap.read() 


(5) 调整 帧 的 大 小 不 是 必须 的 ， 但 是 这 在 编写 代码 中 很 重要 : 
# 调整 帧 的 大 小 
frame = cv2.resize(frame, None, fx=scaling_ factor, fy=scaling_ factor, 


interpolation=cv2.INTER_ AREA) 


(6) 显示 帧 : 

































































# 显示 帧 


cv2.imshow('Webcam', frame) 
(7) 等 待 1 ms， 然 后 采集 下 一 帧 : 


# 检查 是 否 按 了 Esc 键 
C = Cv2.waitKey (1 
9 动 MW 基于 访 人 

break 


(8) 释放 视频 采集 对 象 : 


# 释放 视频 采集 对 象 


cap.release() 


(9) 在 结束 代码 之 前 关闭 所 有 活动 窗 体 : 


# 关闭 所 有 活动 窗 体 
Cv2 .destroyAllWindows () 
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(10) 全 部 代码 已 经 包含 在 video_capture.py 文 件 中 。 运 行 该 代码 ， 可 以 从 网 络 摄像 头 中 看 到 类 
似 如 图 10-1 所 示 的 图 像 。 





Webcam 

















图 10-1 


10.3 用 Haar 级 联 创 建 一 个 人 脸 识别 器 


正如 前 面 讨论 过 的 , 人 脸 检 测 是 确定 输入 图 像 中 人 脸 位 置 的 过 程 。 我 们 将 用 Haar 级 联 来 做 人 
脸 检 测 。Haar 级 联通 过 在 多 个 尺度 上 从 图 像 中 提取 大 量 的 简单 特征 来 实现 。 简 单 特 征 主要 指 边 、 
线 、 和 矩形 特征 等 ,这些 特征 都 非常 易于 计算 ,然后 通过 创建 一 系列 简单 的 分 类 器 来 做 训练 。 使 用 
自 适 应 增强 技术 可 以 使 得 这 个 过 程 更 健壮 ， 更 多 细节 可 以 查看 http://docs.opencv.org/3.1.0/d7/ 
d8b/tutorial_py_face_detection.html#gsc.tab=0。 下 面 来 看 如 何在 网 络 摄像 头 采集 的 视频 帧 中 确定 人 
脸 位 置 。 

















详细 步骤 


(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 





import cv2 
import numpy as np 


(2) 加 载 人 脸 检 测 级 联 文件 。 这 是 可 以 用 作 检 测 器 的 训练 模型 ; 
# 导入 人 脸 检 测 级 联 文件 


face_cascade = cv2.CascadeClassifier('cascade_ files/haarcascade_ 
frontalface _alt.xml') 


(3) 确定 级 联 文件 是 否 正确 地 加 载 : 
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# 确定 级 联 文件 是 否 正确 地 加 载 
if face_cascade.empty (): 
raise IOError('Unable to load the face cascade classifier xml file') 


(4) 生成 一 个 视频 采集 对 象 : 


# 初始 化 视频 采集 对 象 
cap = cv2.VideoCapture(0) 


(5) 定义 图 像 向 下 采样 的 比例 系数 : 


# 定义 图 像 向 下 采样 的 比例 系数 


scaling_factor = 0.5 
(6) 循环 采集 直到 按 下 Esc 键 : 


# 循环 采集 直到 按 下 Esc 键 
while True: 
# 采集 当前 帧 并 进行 调整 


ret, frame = cap.read() 


(7) 调整 帧 的 大 小 : 

















frame = cv2.resize(frame, None, fx=scaling_ factor, fy=scaling_ factor, 
interpolation=cv2.INTER_AREA) 


(8) 将 图 像 转 为 灰 度 图 。 这 里 需要 灰 度 图 像 来 运行 人 脸 检测 需 : 
# 将 图 像 转 为 灰 度 图 
gray = CV2 .cvtColor (frame，CV2 .COLOR_BGR2GRAY) 
(9) 在 灰 度 图 像 上 运行 人 脸 检测 器 。 人 参数 1 .3 是 指 每 个 阶段 的 乘积 系数 。 人 参数 5 是 指 每 个 候选 
和 矩形 应 该 拥有 的 最 小 近邻 数量 , 这 样 我 们 可 以 维持 这 一 数量 。 候 选 矩 形 是 指 人 脸 可 能 被 检测 到 的 
候选 区 域 : 
# 在 友 度 图 像 上 运行 人 脸 检 测 器 


face_rects = face_cascade.detectMultiScale(gray, 1.3, 5) 
(10) 对 于 每 个 检测 到 的 人 脸 区 域 ， 在 其 周围 画 出 矩形 : 
# 在 脸 部 画 出 矩形 


for (x,y,w,h) in face_rects : 
cV2 .rectangle(frame， (x,y), (x+w,y+h), (0,255,0), 3) 


(11) 展示 输出 图 像 : 


# 展示 输出 图 像 


cv2.imshow('Face Detector', frame) 
(12) 在 下 一 次 迭代 之 前 等 待 1 ms， 如 果 用 户 按 下 Esc 键 ， 就 跳出 循环 : 


# 检查 是 否 按 下 Esc 键 


C = cv2.waitKey (1) 
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break 


(13) 在 结束 代码 之 前 ， 释 放 并 销毁 所 有 对 象 : 
# 释放 视频 采样 对 象 并 关闭 窗口 


cap.release() 
Cv2 .destroyAllWindows () 














(14) 全 部 代码 已 经 包含 在 face_detector.py 文 件 中 。 运 行 


该 代码 ， 可 以 看 到 从 网 络 摄 像 视频 文 
件 中 人 脸 被 检测 出 来 了 ， 如 图 10-2 所 示 。 





Face Detector 








ss 





图 10-2 


10.4 ”创建 一 个 眼睛 和 鼻子 检测 器 


Haar 级 联 方法 可 以 被 扩展 应 用 于 各 种 对 象 的 检测 。 接 下 来 看 看 如 何 利用 该 方法 检测 输入 视频 
文件 中 的 眼睛 和 描 子 。 


详细 步骤 


(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import cv2 
import numpy as np 


(2) 加 载 人 脸 、 眼 睛 和 锚 子 级 联 文 件 : 


# 加 载 人 脸 、 眼 睛 和 鼻子 级 联 文件 


face_cascade = cv2.CascadeClassifier('cascade_files/nhaarcascade_ 
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frontalface_alt.xml') 
eye_cascade = cv2.CascadeClassifier('cascade_ files/haarcascade_eye.xml') 
nose_cascade = cv2.CascadeClassifier('cascade_ files/haarcascade_mcs_nose.xml') 


(3) 确定 级 联 文件 是 否 正 确 地 加 载 : 


# 检查 脸 部 级 联 文件 是 否 加 载 
if face_cascade.empty (): 
raise IOError('Unable to load the face cascade classifier xml file') 


# 检查 眼睛 级 联 文件 是 否 加 载 
if eye_cascade.empty (): 
raise IOError('Unable to load the eye cascade classifier xml file') 


# 检查 鼻子 级 联 文件 是 否 加 载 
if nose_cascade.empty (): 
raise IOError('Unable to load the nose cascade classifier xml file') 


(4) 初始 化 视频 采集 对 象 : 


# 初始 化 视频 采集 对 象 并 定义 比例 系数 
cap = cv2.VideoCapture(0) 


(5) 定义 比例 系数 : 





scaling_factor = 0.5 


(6) 重复 循环 直至 用 户 按 下 Esc 键 : 

















while True: 
# 读 取 当 前 帧 画面 ， 调 整 大 小 ， 转 为 灰 度 图 


ret, frame = cap.read() 
(7) 调整 帧 的 大 小 : 


frame = cv2.resize(frame, None, fx=scaling_ factor, fy=scaling_ factor, 
interpolation=cv2.INTER_ AREA) 


(8) 将 图 像 转 为 灰 度 图 : 
gray = CV2 .cvtColor (frame, CVv2.COLOR_ BGR2GRAY) 
(9) 在 灰 度 图 像 上 运行 人 脸 检 测 器 : 


# 在 灰 度 图 像 上 运行 人 脸 检 测 器 


faces = face_cascade.detectMultiScale(gray, 1.3, 5) 
(10) 因为 眼睛 和 鼻子 总 是 位 于 脸 部 区 域 ， 所 以 这 里 仅 在 脸 部 区 域 运行 检测 器 : 


# 在 每 张 脸 的 矩形 区 域 运行 眼睛 和 鼻子 检测 器 


for (x,y,w,h) in faces: 


(11) 提取 人 脸 ROI 信 息 : 
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# 从 彩色 与 变 度 图 中 提取 人 脸 ROT 信 息 


roi_gray = gray[y:y+h，X:X+W] 





roi_color = frame[y:y+h，X:X+W] 
(12) 运行 眼睛 检测 器 : 


# 在 友 度 图 ROI 信 息 中 检测 眼睛 


eye_rects = eye_cascade.detectMultiScale(roi_gray) 
(13) 运行 鼻子 检测 器 : 


# 在 友 度 图 ROI 信 息 中 检测 鼻子 


nose_rects = nose_cascade.detectMultiScale(roi_gray, 1.3, 5) 
(14) 在 眼睛 周围 画 圈 : 


# 在 眼睛 周围 画 绿色 的 图 


for (X_eye，y_eye，WwW_eye，h_eye) in eye rects: 











center = (int (x_eye + 0.5*w_ eye), int(y_eye + 0.5*h_ eye)) 
radius = int(0.3 * (w_eye + h_eye)) 
eoLlOr; = "(Qn 255 "0.) 
thickness = 3 
Cv2.circlel(roi_ color, center, radius, color, thickness) 
首 a 
(15) 在 鼻子 周围 画 和 矩形 : 
for (X nose，y_nose，wnose，h_ nose) in nose_rects : 
Cv2.rectangle(roi_ color, (x_nose, y_nose), (x_nose+w_nose, 
Yy. nose+h noge), (0;2955,0); 3) 

break 

(16) 展示 该 图 像 : 

# 展示 图 像 





Cv2.imshow('Eye and nose detector', frame) 
(17) 在 下 一 次 迭代 之 前 等 待 1 ms， 如 果 用 户 按 下 Esc 键 ， 就 跳出 循环 : 


# 检查 是 否 按 了 Esc 键 
C = Cv2.waitKey (1) 
和 Gr 2 

break 


(18) 在 结束 代码 之 前 ， 释 放 并 销毁 所 有 对 象 : 
# 释放 视频 采样 对 象 并 关闭 窗口 


cap.release() 
cv2.destroyAllWindows () 























(19) 全 部 代码 已 经 包含 在 eye_nose_detector.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 网 络 摄像 视频 





文件 中 的 眼睛 和 锚 子 被 检测 出 来 了 ， 如 图 10-3 所 示 。 
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Eye and nose detector 











10.5 ”做 主 成 分 分 析 


主 成 分 分 析 (Principal Components Analysis，PCA ) 是 一 个 降低 维度 的 技术 ， 常 用 于 计算 机 
视觉 和 机 顺 学 习 中 。 当 需要 处 理 很 大 的 特征 维度 时 ， 训 练 机 需 学 习 系 统 变 得 异常 昂贵 ， 因 此 需要 
在 训练 系统 之 前 降低 数据 的 维度 。 但是， 降低 维度 时 ,我 们 并 不 想 损 失 数 据 中 的 重要 信息 ， 此 时 
PCA 便 是 最 佳 选 择 。PCA 识 别 数据 中 的 重要 成 分 ， 并 将 其 按照 重要 程度 排序 。 你 可 以 在 
http://dai.fmph.uniba.sk/courses/ml/sl/PCA.pdf 中 了 解 更 多 细 方 。 PCA 也 常用 于 人 脸 识 别 系统 。 接 下 
来 看 看 如 何 对 输入 数据 做 主 成 分 分 析 。 




















详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
from sklearn import decomposition 


(2) 为 输入 数据 定义 5 个 维度 。 前 两 个 维度 是 独立 的 ， 但 是 后 3 个 维度 将 依赖 于 前 两 个 维度 。 
也 就 是 说 ， 可 以 去 掉 后 3 个 维度 ， 因 为 它们 并 没有 提供 任何 新 信息 : 


























X1L = np.random.normal (size=250) 
X2 = np.random.normal (size=250) 
3 三 区 2 

区 生生 进 汪 区 了 :二 族 2 

.5 三 及 入 -和 . 人 2 太 到 外 





(3) 创建 一 个 带 这 些 特征 的 数据 集 ; 
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# 创建 特征 数据 集 
| 


(4) 创建 一 个 PCA 对 象 : 





# 创建 一 个 PCA 
pca = decomposition.PCA() 


(5) 对 输入 数据 做 主 成 分 分 析 (PCA ): 
pca.fit (x) 

(6) 打印 维度 的 方差 : 

# 打印 方差 


variances = pca.explained variance_ 
print '\nVariances in decreasing order:\n', variances 


(7) 如 果 一 个 特定 的 维度 是 有 用 的 ， 那 么 它 应 该 有 一 个 有 意义 的 方差 值 。 设 置 一 个 闵 值 并 确 
定 重 要 的 维度 : 
# 找 出 有 用 的 维度 数量 




















里 
thresh variance = 0.8 
num useful dims = len(np.where(variances > thresh variance) [0]) 
print '\nNumber of useful dimensions:', num useful dims 








(8) 正如 之 前 提 到 的 ，PCA 识 别 只 有 两 个 维度 在 这 个 数据 集中 很 重要 : 
# 只 有 两 个 维度 是 有 效 的 
pca.n_components = num useful_ dims 


(9) 将 数据 集 从 5 维 转换 为 二 维 : 


X_new = pca.fit_ transform(Xx) 
print '\nShape before:', X.shape 
print 'Shape after:', X_new.shape 


(10) 全 部 代码 已 经 包含 在 pca.py 文 件 中 。 运 行 该 代码 ,可 以 在 终端 看 到 如 图 10-4 所 示 的 结 





Variances in decreasing order: 
[ 1.13489352e+02 1.08125265e+01 3.34017371e-31 4.36320756e-32 
1.49223239e-32] 


Number of useful dimensions: 2 





Shape before: (250, 5) 
Shape after: (250, 2) 





图 10-4 


10.6 ”做 核 主 成 分 分 析 
PCA 能 很 好 地 降低 维度 ， 但 PCA 是 以 线性 方式 工作 的 ， 如 果 数 据 集 不 是 以 线性 方式 组 织 的 ， 
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那么 PCA 并 不 能 实现 其 功能 。 但 是 核 主 成 分 分 析 可 以 很 好 地 解决 这 个 问题 , 关于 核 主 成 分 分 析 的 
细节 介绍 可 参考 http:/www.ics.uci.edu/~welling/classnotes/papers_class/Kernel-PCA.pdf。 接 下 来 看 
看 如 何 对 输入 数据 做 核 主 成 分 分 析 ， 同 时 将 其 与 主 成 分 分 析 进 行 对 比 。 





详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 且 导 入 以 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 





from sklearn.decomposition import PCA, KernelPCA 
from sklearn.datasets import make circles 


(2) 定义 随机 数 发 生 器 的 种 子 值 ， 以 便 产 生 用 于 分 析 的 数据 示例 : 
# 定义 随机 数 发 生 器 的 种 子 什 


np.random.seed(7) 
(3) 生成 以 同心 圆 分 布 的 数据 ， 以 演示 PCA 在 这 种 情况 下 是 如 何 工 作 的 : 
# 生成 样本 


XxX, y = make_circles(n samples=500, factor=0.2, noise=0.04) 
(4) 对 这 组 数据 做 主 成 分 分 析 : 


# 做 主 成 分 分 析 
pca = PCA() 
Xpca = pca.fit_ transform(x) 


(5) 对 输入 数据 做 核 主 成 分 分 析 : 
# 做 核 主 成 分 分 析 
kernel pca = KernelPCA(kernel="rbf", fit_ inverse transform=True, gamma=10) 


XxX_kernel pca = kernel pca.fit transform(x) 
XxX_inverse = kernel pca.inverse transform(Xx _ kernel_ pca) 


(6) 画 出 原始 输入 数据 : 
# 画 出 原始 输入 数据 





class_0 = np.where(y == 0) 

class_1 = nb.where(y == 1) 

plt.figure() 

plt.title("Original data") 

plt.plot (X[class_0, 0], X[class_0, 1], "ko", mfc='none') 
PltBlottXlolass Ly Oly Xholass. 4; 11 “xs) 

plt.xlabel ("lst dimension") 

plt.ylabel ("2nd dimension") 


(7) 画 出 主 成 分 分 析 后 的 数据 : 


# 画 出 主 成 分 分 析 后 的 数据 
plt.figure() 
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plt.plot (Xx_pcalclass_0, 0], X pcalclass_0, 1], "ko", mfc='none') 
Dit plot(X Bealelases ly :O00 X-pcalelasse ll). "Key 
plt.title("Data transformed using PCA") 

plt.xlabel ("lst principal component") 

plt.ylabel ("2nd principal component") 


(8) 画 出 核 主 成 分 分 析 后 的 数据 : 


# 画 出 核 主 成 分 分 析 后 的 数据 

plLLt.figurel() 

plt.plot (Xx_kernel_pcalclass_0, 0], X_ kernel pcalclass_0, 1], "ko", mfc='none') 
plt.plot (Xx_kernel_pcalclass_1, 0], X_ kernel pcalclass_1, 1], "kx") 
plt.title("Data transformed using Kernel PCA") 

plt.xlabel ("lst principal component") 

plt.ylabel ("2nd principal component") 


(9) 用 核 方法 将 数据 转换 回 原始 空间 ， 查 看 是 否 存 在 这 样 的 可 道 关系 : 


用 核 方法 将 数据 转换 回 原始 空间 

lt.figure() 

t.plot (Xx_inverse[class_0, 0], X_ inverse[lclass_0, 1], "ko", mfc='none') 
It.plot (Xx _ inverse[class_1, 0], X_ inverselclass_1, 1], "kx") 
lt.title("Inverse transform") 
t.xlabel ("lst dimension") 
t.ylabel ("2nd dimension") 


0 





plt.show!() 


(10) 全 部 代码 已 经 包含 在 kpca.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 4 幅 图 像 。 第 一 幅 图 像 是 原 
始 数据 ， 如 图 10-5 所 示 。 
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图 10-5 
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第 二 幅 图 像 是 运行 主 成 分 分 析 后 的 数据 ， 如 图 10-6 所 示 。 
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图 10-6 


第 三 幅 图 像 是 运行 核 主 成 分 分 析 后 的 数据 ， 如 图 10-7 所 示 。 注 意 ， 点 都 聚集 到 图 像 的 右 半 
部 分 。 
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第 四 幅 图 像 展 示 了 将 数据 逆 变 换 回 其 原始 空间 ， 如 图 10-8 所 示 。 





©ee@ Figure 4 
























































10.7 ”做 盲 源 分 离 


盲 源 分 离 是 指 将 信号 从 混合 体 中 分 离 出 来 的 过 程 ,假设 一 组 不 同 的 信号 发 生 器 生成 了 不 同 的 
信号 ,而 一 个 公共 接收 机 接收 到 了 所 有 这 些 信和 号。 现在 , 我 们 的 工作 是 利用 这 些 信 号 的 性 质 将 这 
些 信 号 从 混合 体 中 分 离 出 来 。 我 们 将 用 独立 成 分 分 析 (Independent Components Analysis，ICA ) 
算法 来 实现 。 关 于 独立 成 分 分 析 的 细节 可 查看 http://www.mit.edu/~gari/teaching/6.555/LECTURE_ 
NOTES/ch15_bss.pdf。 接 下 来 看 看 如 何 实现 。 





详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 1 


import numpy as np 
import matplotlib.pyplot as plt 
from scipy import signal 


from sklearn.decomposition import PCA, FastICA 


(2) 本 例 将 用 到 mixture_of signals.txt 文 件 提供 的 数据 。 加 载 该 数据 : 
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# 加 载 数据 

input_file = 'mixture_of_signals.txt' 
xX = np.loadtxt (input_file) 

(3) 创建 ICA 对 象 : 

# 计算 ICA 

ica = FastICA(n_ components=4) 

(4) 基于 ICA 重 构 信 号 : 

# 重 构 信号 

signals_ica = ica.fit_ transform(x) 
(5) 提取 混合 矩阵 : 

# 提取 混合 徐 阵 

mixing_mat = ica.mixing_ 

(6) 执行 PCA 做 对 比 : 

# 执行 PCA 


pca = PCA(n_ components=4) 
signals_pca = pca.fit_transform(X) # 基于 正 交 成 分 重 构 信号 


(7) 定义 信号 列表 来 将 其 面 出 : 


# 定义 画图 参数 





models = [X, signals_ica, signals_pcal 
(8) 指定 颜色 : 
colors = ['blue', 'red', 'black', 'green'] 


(9) 画 出 输入 信号 : 


# 画 出 输入 信号 


plt.figure!() 
plt.title('Input signal (mixture)') 
for i, (sig, color) in enumerate(zip(X.T, colors), 1): 


plt.plot (sig, color=color) 
(10) 画 出 利用 ICA 分 离 的 信号 : 


# 画 出 利用 ICRA 分 离 的 信号 

plt.figure!() 

plt.title('ICA separated signals') 

pltb. Subplots-adiust (Lefts0..1; Dottomso005; rT1g9ht30%,94, 
top=0.94, wspace=0.25, hspace=0.45) 


(11) 用 不 同 的 颜色 画 出 子 图 : 








for i, (sig, color) in enumerate(zip(signals_ica.T, colors), 1): 
plt.subplot (4, 1, i) 
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plt.title('Signal ' + str(i)) 
plt.plot (sig, color=color) 


(12) 画 出 用 PCA 分 离 的 信号: 


# 画 出 PCA 信 号 

plLt.figure() 

plt.title('PCA separated signals') 

plt.subplots_adjust (left=0.1, bottom=0.05, right=0.94, 
top=0.94, wspace=0.25, hspace=0.45) 


(13) 用 不 同 的 颜色 画 出 各 子 图 : 


for i, (sig, color) in enumerate(zip(signals_pca.T, colors), 1): 
plt.subplot (4, 1, i) 
plt.title('Signal ' + str(i)) 
plt.plot (sig, color=color) 





plt.show!() 


(14) 全 部 代码 已 经 包含 在 blind_source_separation.py 文 件 中 。 运行 该 代码 ， 可 以 看 到 3 幅 图 像 。 
第 一 幅 图 像 是 原始 数据 ， 也 就 是 信号 的 混合 体 ， 如 图 10-9 所 示 。 





©@@e@ Figure 1 
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图 10-9 


第 二 幅 图 像 是 用 ICA 分 离 的 信号 ， 如 图 10-10 所 示 。 
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图 10-10 


第 三 幅 图 像 是 用 PCA 分 离 的 信号 ， 如 图 10-11 所 示 。 












































图 10-11 
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10.8 ”用 局 部 二 值 模式 直方 图 创建 一 个 人 脸 识 别 器 


现在 已 经 准备 好 创建 人 脸 识 别 器 了 。 接 下 来 需要 一 个 人 脸 数据 集 来 做 训练 , 所 以 这 里 提供 了 
一 个 faces_dataset 文 件 夹 ， 该 文件 夹 中 包含 足够 的 图 像 可 以 用 来 做 训练 。 该 数据 集 是 
http://www.vision.caltech.edu/Image_Datasets/faces/faces.tar 给 出 的 一 个 子 集 ， 包 含 了 一 定数 量 的 图 
像 ， 可 以 利用 这 些 图 像 来 训练 一 个 人 脸 识 别 系统 。 


我 们 将 用 局 部 二 值 模式 直方 图 ( Local Binary Patterns Histograms ) 创建 人 脸 识 别 系 统 。 在 数 
据 集中 ,你 可 以 看 到 不 同 的 人 。 接 下 来 的 工作 是 构建 一 个 能 将 每 个 人 从 其 他 人 中 区 分 出 来 的 系统 。 
如 果 看 到 从 未 见 过 的 图 像 ,系统 会 将 其 分 派 到 已 有 的 类 中 。 更 多 关于 局 部 二 值 模式 直方 图 的 细节 
信息 可 查看 http://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial.html#ocal-binary- 
patterns-histograms。 下 面 看 看 如 何 创建 一 个 人 脸 识别 器 。 






































详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import os 


import cv2 
import numpy as np 
from sklearn import preprocessing 


(2) 定义 一 个 类 来 处 理 与 类 标签 编码 相关 的 所 有 任务 : 


# 定义 一 个 类 来 处 理 与 类 标签 编码 相关 的 所 有 任务 
class LabelEncoder (object): 
(3) 定义 一 个 方法 来 为 这 些 标签 编码 。 在 输入 训练 数据 中 ， 标 签 用 单词 表示 ， 但 我 们 需要 数 
字 来 训练 系统 。 该 方法 将 定义 一 个 预 处 理 对 象 , 该 对 象 将 单词 转换 成 数字 ,同时 保留 这 种 前 向 后 
向 的 映射 关系 : 
# 将 单词 转换 成 数字 的 编码 方法 
def encode_ labels(self, label_ words): 


self.le = preprocessing.LabelEncoder () 
self.le.fit (label_ words) 


(4) 定义 一 个 将 单词 转换 成 数字 的 方法 : 
# 将 输入 单词 转换 成 数字 


def word to num(self, label_ word): 
return int(self.le.transform([label_ word])[0]) 


(5) 定义 一 个 方法 ， 用 于 将 数字 转换 回 其 原始 单词 : 
# 将 数字 转换 为 单词 
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def num to_word(self, label_ num): 
return self.le.inverse transform([label num]) [0] 


(6) 定义 一 个 方法 ， 用 于 从 输入 文件 夹 中 提取 图 像 和 标签 : 


# 从 输入 文件 夹 中 提取 图 像 和 标签 
def get_images_angd_ labels (input_ path): 
label _ words = [] 


(7) 对 输入 文件 夹 做 递归 和 迭代， 提取 所 有 图 像 的 路 径 : 
# 对 输入 文件 夹 做 递归 迁 代 并 追加 文件 


for root, dirs, files in os.walk (input_ path): 
for filename in (x for x in files if x.endswith('.jpg')): 
filepath = os.path.join(root, filename) 
label_words.append (filepath.split('/')[-2]) 


(8) 初始 化 变量 : 





# 初始 化 变量 

images = [] 

le = LabelEncoder () 
le.encode_labels (label_words) 
labels = [] 


(9) 为 训练 解析 输入 目录 : 


# 解析 输入 目录 
for root, dirs, files in os.walk (input_ path): 
for filename in (x for x in files if x.endswith('.jpg')): 
filepath = os.path.join(root, filename) 


(10) 将 当前 图 像 读 取 成 灰 度 格式 : 
# 将 当前 图 像 读 取 成 友 度 格式 


image = cv2.imread (filepath, 0) 


(11) 从 文件 夹 路 径 中 提取 标签 : 


# 从 文件 夹 路 径 中 提取 标签 
name = filepath.split('/')[-2] 


(12) 对 该 图 像 做 人 脸 检 测 : 
# 做 人 脸 检 测 


faces = faceCascade.detectMultiScale(image, 1.1, 2, minSize=(100,100)) 
(13) 提取 ROI 属 性 值 ， 并 将 这 些 值 和 标签 编码 器 返回 
# 循环 处 理 每 一 张 脸 


for (x, y, w, h) in faces: 
images.append (image[ly:y+h, x:x+w]) 
labels.append(le.word_ to_num(name)) 


























return images, labels, le 
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(14) 定义 main 哨 数 ， 并 定义 人 脸 级 联 文件 的 路 径 : 





if name ==' main _': 
cascade _ path = "cascade_files/haarcascade_ frontalface_alt.xml" 
path_ train = 'faces._dataset/train,' 
path_ test = 'faces_dataset/test' 

(15) 加 载 人 脸 级 联 文件 : 


# 加 载 人 脸 级 联 文 件 
faceCascade = cv2.CascadeClassifier(cascade path) 


(16) 生成 局 部 二 值 模式 直方 网 人 脸 识 别 器 对 象 : 


# 生成 局 部 二 值 模式 直方 图 人 脸 识别 器 


recognizer = cv2.face.createLBPHFaceRecognizer () 


(17) 为 输入 路 径 提 取 图 像 、 标 签 和 标签 编码 器 : 


# 从 训练 数据 集中 提取 图 像 、 标 签 和 标签 编码 器 


images, labels, le = get_images_and labels (path train) 
(18) 用 提取 的 数据 训练 人 脸 识别 需 : 


# 训练 人 脸 识别 器 
print "\nTraining..." 
recognizer.train (images, np.array (labels)) 


(19) 用 未 知 数据 测试 人 脸 识 别 器 : 


# 用 未 知 数据 测试 人 脸 识别 器 
print '\nPerforming prediction on test images...' 
stop_flag = False 
for root, dirs, files in os.walk (path test): 
for filename in (x for x in files if x.endswith('.jpg')): 
filepath = os.path.join(root, filename) 


(20) 加 载 图 像 : 
# 读 取 图 像 


predict_image = cv2.imread(filepath, 0) 
(21) 用 人 脸 检 测 需 确 定 人 脸 的 位 置 : 


# 检测 人 脸 
faces = faceCascade.detectMultiScale(predict image, 1.1, 
2, minSsize=(100,100)) 


(22) 对 于 每 个 人 脸 ROI， 运 行人 脸 识别 器 : 
# 循环 处 理 每 一 张 脸 


for (x, y, w, h) in faces: 
# Predict the output 
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predicted_ index, conf = recognizer.predict( 
predict_image[ly:y+h, x:x+w]) 


(23) 将 标签 转换 为 单词 : 
# 将 标签 转换 为 单词 


predicted person = le.num to word(predicted_ ingdex) 


(24) 在 输出 图 像 中 又 加 文字 ， 并 将 其 展示 : 


# 在 输出 图 像 中 起 加 文字 ， 并 显示 图 像 

Cv2.putText (predict_image, 'Prediction: ' + predicted person, 
(10. 60}; TyY2, FONT HERSHEY .SIMPLEX, 2, {255 .255 295); .6} 
cv2.imshow ("Recognizing face", predict_image) 


(25) 检查 用 户 是 否 按 下 Esc 键 。 如 果 有 ， 则 跳出 循环 : 








C = Cv2.waitKey (0) 

人 丘 富 人 2 了 党 
stop_flag = True 
break 


if -Sto £1ad: 
break 


(26) 全 部 代码 已 经 包含 在 face_recognizer.py 文 件 中 。 运 行 该 代码 ， 可 以 得 到 一 个 输出 窗 体 ， 
窗 体 中 显示 测试 图 像 的 预测 输出 。 按 下 空格 键 可 以 继续 循环 。 测 试图 像 中 有 3 个 不 同 的 人 。 第 一 
个 人 的 输出 结果 如 图 10-12 所 示 。 











Recognizing face 
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第 二 个 人 的 输出 结果 如 图 10-13 所 示 。 





Recognizing face 


Prediction: person2 








图 10-13 


第 三 个 人 的 输出 结果 如 图 10-14 所 示 。 








次 度 神 经 网 络 








在 这 一 章 ， 我 们 将 介绍 以 下 主题 : 


口 创建 一 个 感知 咒 

口 创建 一 个 单 层 神经 网 络 

口 创建 一 个 深度 神经 网 络 

口 创建 一 个 向 量 量 化 需 

口 为 序列 数据 分 析 创建 一 个 递归 神经 网 络 
口 在 光学 字符 识别 数据 库 中 将 字符 可 视 化 
口 用 神经 网 络 创建 一 个 光学 字符 识别 需 












































11.1 简介 


人 类 的 大 脑 很 擅长 于 鉴别 和 识别 物体 , 我 们 希望 机 器 也 可 以 做 同样 的 事情 。 一 个 神经 网 络 就 
是 一 个 模仿 人 类 大 脑 激发 学 习 过 程 的 框架 。 神 经 网 络 被 用 于 从 数据 中 识别 隐藏 的 模式 。 正 如 所 有 
的 学 习 算 法 , 神经 网 络 处 理 的 是 数字 。 因此 , 如果 想 要 实现 处 理 现实 世界 中 任何 包含 图 像 、 文 字 、 
传感器 等 的 任务 ， 就 必须 将 其 转换 成 数值 形式 ， 然 后 将 其 输入 到 一 个 神经 网 络 。 我 们 可 以 用 神经 
网 络 做 分 类 、 聚 类 、 生 成 以 及 其 他 相关 的 任务 。 


申 经 网 络 由 一 层 层 神 经 元 组 成 。 这 些 神经 元 模拟 人 类 大 脑 中 的 生物 神经 元 。 每 一 层 都 是 一 组 
独立 的 神经 元 , 这 些 神经 元 与 相 邻 层 的 神经 元 相连 。 输入 层 对 应 我 们 提供 的 输入 数据 ， 而 输出 层 
包括 了 我 们 期 望 的 输出 结果 。 输入 层 与 输出 层 之 间 的 层 统 称 为 隐藏 层 。 如 果 设 计 的 神经 网 络 包括 
多 个 隐藏 层 ， 那 么 就 能 通过 这 些 层 的 自我 训练 获得 更 大 的 精确 度 。 


假设 我 们 希望 神经 网 络 按照 我 们 的 要 求 来 对 数据 进行 分 类 。 为 了 使 神经 网 络 完成 相应 的 任 
务 ， 需 要 提供 带 标 签 的 训练 数据 。 神 经 网 络 将 通过 优化 成 本 函数 来 训练 自己 。 我 们 不 停 地 闪 代 ， 
直到 错误 率 下 降 到 一 定 的 阔 值 为 止 。 


那么 “深度 ”神经 网 络 是 什么 ? 深度 神经 网 络 是 由 多 个 隐藏 层 组 成 的 神经 网 络 。 一 般 来 说 ， 
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这 就 属于 深度 学 习 的 范畴 。 深度 学 习 用 于 研究 这 些 神经 网 络 ,， 而 这 些 神经 网 络 由 多 个 层次 的 多 层 
结构 组 成 。 

你 可 以 在 http://pages.cs.wisc.edu/~bolo/shipyard/neural/local.html 查 看 神经 网 络 的 教程 。 本 章 中 
将 用 到 NeuroLab 库 。 在 接 下 来 的 学 习 之 前 ， 请 确保 你 已 经 安装 了 这 个 库 ， 安 装 指 导 可 以 参考 
https://pythonhosted.org/neurolab/install.html。 接 下 来 看 看 如 何 设计 和 开发 这 些 神 经 网 络 。 











11.2 创建 一 个 感知 器 


让 我 们 通过 感知 器 开始 神经 网 络 之 旅 。 感 知 器 是 一 个 单独 的 神经 元 , 它 负 责 执行 所 有 的 计算 。 
这 是 一 个 非常 简单 的 模型 ， 但 是 它 黄 定 了 构建 复杂 神经 网 络 的 基础 。 该 模型 如 网 11-1 所 示 。 
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图 11-1 


该 神经 元 将 多 个 输入 用 不 同 的 权重 系数 融合 起 来 , 并 加 上 偏差 值 来 计算 输出 。 这 是 一 个 简单 
的 线性 方程 ， 它 将 输入 值 与 感知 器 的 输出 关联 起 来 。 


























详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import numpy as np 


import neurolab as nl 
import matplotlib.pyplot as plt 


(2) 定 义 一 些 输入 数据 及 其 对 应 的 标签 : 


# 定义 输入 数据 
datea= nD. array Cl LO: O02dy Oly Od EQ O06 EO 0 .5 


labels = np.array ([[0], [0], [0], [1]]) 
(3) 将 这 些 点 画 出 ， 以 查看 这 些 点 的 布局 : 

# 画 出 输入 数据 

plt.figure() 


plt.scatter(data[:,0], data[:,1]) 
plt.xlabel ('X-axis') 

plt.ylabel ('Y-axis') 
plt.title('Input data') 
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(4) 定义 一 个 感知 器 berceptron, 它 有 两 个 输入 。 该 函数 还 需要 限定 输入 数据 的 最 大 值 和 最 
小 值 : 

# 定义 有 两 个 输入 的 感知 器 ， 在 感知 器 第 一 个 参数 的 每 个 元 素 中 指定 参数 的 最 大 值 和 最 小 值 

perceptron = nl.net.newp([[0, 1],[0, 1]], 1) 

(5) 接 下 来 训练 该 感知 器 。epochs 的 数量 指定 了 训练 数据 集 需 要 完成 的 测试 次 数 。show 参 数 
指定 了 显示 训练 过 程 的 频率 。1r 参 数 指定 了 感知 器 的 学 习 速 度 。 学 习 速 度 是 指 学 习 算 法 在 参数 空 
间 中 搜索 的 步 长 。 如 果 这 个 值 太 大 , 算法 行进 得 会 很 快 , 但 可 能 会 错失 最 优 值 。 而 如 果 这 个 值 太 
小 ， 则 该 算法 可 以 命中 最 优 值 ， 但 是 算法 行进 得 会 很 慢 ， 所 以 需要 进行 权衡 。 这 里 取 0 .01: 

# 训练 感知 器 

error = perceptron.train(data, labels, epochs=50, show=15, lr=0.01) 


(6) 画 出 结果 : 


# 画 出 结果 

t . Eigure() 

plt.plot (error) 

t.xlabel('Number of epochs') 
t.ylabel('Training error') 
plt.grid() 

plt.title('Training error progress') 
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plt.show!() 


(7) 全 部 代码 已 经 在 perceptron.py 文 件 中 给 出 。 运 行 该 代码 ,可 以 看 到 两 幅 图 像 。 第 一 幅 图 像 
显示 输入 数据 ， 如 图 11-2 所 示 。 
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第 二 幅 图 像 显 示 训 练 误差 进程 ， 如 图 11-3 所 示 。 



























































图 11-3 


11.3 ”创建 一 个 单 层 神经 网 络 


知道 如 何 创建 一 个 感知 器 后 接 下 来 创建 一 个 单 层 神经 网 络 。 单 层 神经 网 络 由 一 个 层次 中 的 
多 个 神经 元 组 成 。 总 体 上 看 ， 单 层 神经 网 络 将 会 有 一 个 输入 层 、 一 个 隐藏 层 和 一 个 输出 层 。 





详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


Import numpy as np 
import matplotlib.pyplot as plt 
import neurolab as nl 


(2) 本 例 将 会 用 到 data_single_layer.txt 文 件 中 的 数据 。 先 加 载 这 个 文件 : 


# 定义 输入 数据 

input_file = 'data_ single_ layer.txt' 
input_text = np.loadtxt (input_file) 
data = Input teéxtiL:s ‘082 

labels = input_ text[:, 2:] 
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(3) 画 出 输入 数据 : 


# 画 出 输入 数据 

plt.figure!() 
plt.scatter(data[:,0], datal[l:,1]) 
plt .xlabel ('X-axis') 

plt.ylabel ('Y-axis') 
plt.title('Input data') 


(4) 提取 最 小 值 和 最 大 值 : 
# 提取 每 个 维度 的 最 小 值 和 最 大 什 


x_min, x max = datal[:,0] .min(), datal[:,0] .max() 
y_min, y_max = data[:,1] .min(), datal[l:,1] .max() 


(5) 定义 一 个 单 层 神 经 网 络 ， 该 神经 网 络 的 隐藏 层 包 含 两 个 神经 元 : 


# 定义 一 个 单 层 神经 网 络 ， 包 含 两 个 神经 元 ;在 感知 器 第 一 个 参数 的 每 个 元 素 中 指定 参数 的 最 大 值 和 最 小 值 


single_ layer net = nl.net.newp([[x_ min, x max], [y_min, y_max]], 2) 
(6) 通过 50 次 迭代 训练 该 神经 网 络 : 


# 训练 神经 网 络 


error = single_layer net.train(data, labels, epochs=50, show=20, lr=0.01) 


(7) 画 出 结果 : 


















































# 画 出 结果 

plt.figure() 

plt.plot (error) 

plt.xlabel('Number of epochs') 
plt.ylabel('Training error') 
plt.title('Training error progress') 
Ae sastvo 

plt.show!() 


(8) 用 新 的 测试 数据 来 测试 神经 网 络 : 


print single layer net.sim([[0.3, 4.5]1]) 
print single_ layer net.sim([[4.5, 0.5]]) 
print single_layer net.sim([[4.3, 8]]) 


(9) 全 部 代码 已 经 在 single_layer.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 两 幅 图 像 。 第 一 幅 区 
像 显 示 输 入 数据 ， 如 图 11-4 所 示 。 
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图 11-4 
(10) 第 三 幅 图 像 显 示 训 练 误差 进程 ， 如 图 11-5 所 示 。 






























































图 11-5 

可 以 在 命令 行 工具 中 看 到 如 下 输出 结果 ， 指 示 输 入 测试 点 所 属 的 位 置 : 
[[ 0. 0.11 

[[ 1. 0.]] 

[[ 1. 1.1] 





可 以 基于 标签 来 验证 输出 结果 的 准确 性 。 
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11.4 创建 一 个 深度 神经 网 络 


接 下 来 创建 一 个 深度 神经 网 络 。 一 个 深度 神经 网 络 由 一 个 输入 层 、 多 个 隐藏 层 和 一 个 输出 层 
组 成 。 该 模型 如 图 11-6 所 示 。 


全 人 全 
USXXcCOSRXCO 
CO Sh 7 


图 11-6 展 示 了 一 个 多 层 神经 网 络 ， 该 神经 网 络 包括 一 个 输入 层 、 多 个 隐藏 层 和 一 个 输出 层 。 
在 一 个 深度 神经 网 络 中 ， 输 入 层 和 输出 层 之 间 有 多 个 隐藏 导 。 


















































详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
import neurolab as nl 


import numpy as np 
import matplotlib.pyplot as plt 


(2) 定义 以 下 参数 ， 用 于 生成 训练 数据 : 


# 生成 训练 数据 
min_value = -12 
max_value = 12 


num datapoints = 90 


(3) 训练 数据 将 由 我 们 定义 的 一 个 函数 组 成 ， 该 函数 将 转换 值 。 我 们 期 望 神经 网 络 可 以 根据 
提供 的 输入 数据 和 输出 数据 来 学 习 这 一 点 : 
x = np.linspace(min value, max_ value, num datapoints) 


y=2 * np.square(x) + 7 
y /= np.linalg.norm(y) 
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(4) 数组 变形 : 


data = x.reshape (num datapoints, 1) 
labels = y.reshape (num datapoints, 1) 


(5) 画 出 输入 数据 : 


# 画 出 输入 数据 

plt.figure() 

plt.scatter (data, labels) 
plt.xlabel ('X-axis') 
plt.ylabel ('Y-axis') 
plt.title('Input data') 


(6) 定义 一 个 深度 神经 网 络 ， 该 神经 网 络 包含 两 个 隐藏 层 ， 每 个 隐藏 层 包 含 10 个 神经 元 : 


# 定义 一 个 深度 神经 网 络 ， 带 两 个 隐藏 层 ; 每 个 隐藏 层 由 10 个 神经 元 组 成 ， 输 出 层 由 一 个 神经 元 组 成 
multilayer net = nl.net.newff([[min value, max_ value]], [10, 10, 1]) 


(7) 设置 训练 算法 为 梯度 下 降 法 (关于 梯度 下 降 法 的 介绍 可 参考 https://spin.atomicobject.com/ 
2014/06/24/gradient-descent-linear-regression ): 





# 设置 训练 算法 为 梯度 下 降 法 


multilayer_net.trainf = nl.train.train gd 
(8) 训练 网 络 : 
# 训练 网 络 


error = multilayer _ net.train(data, labels, epochs=800, show=100, goal=0.01) 
(9) 用 训练 数据 运行 该 网 络 ， 查 看 其 性 能 表现 : 
# 用 训练 数据 运行 该 网 络 ， 预 测 结果 


predicted output = multilayer_net.sim(data) 
(10) 画 出 训练 误差 结 


# 画 出 训练 误差 结果 

plt.figure() 

plt.plot (error) 

plt.xlabel('Number of epochs') 
plt.ylabel ('Error') 
plt.title('Training error progress') 


(11) 创建 一 组 新 的 输入 数据 ， 并 运行 神经 网 络 ， 查 看 其 性 能 表现 : 
# 画 出 预测 结果 


x2 = np.1inspace(min value, max_value, num datapoints * 2) 
y2 = multilayer_net.sim(x2.reshape (x2.size,1)).reshape (x2.size) 
y3 = predicted _ output.reshape (num datapoints) 


(12) 画 出 输出 结果 : 














plt.figure!() 
Blt :BIO (2 YO Sp YY RY 
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plt.title('Groungd truth vs predicted output ' ) 


plt.show!() 


(13) 全 部 代码 已 经 在 deep_neural network.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 3 幅 图 像 。 
第 一 幅 图 像 显 示 输 入 数据 ， 如 图 11-7 所 示 。 



































第 二 幅 图 像 显示 训练 误差 进程 ， 如 图 11-8 所 示 。 



























































图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 





11.5 创建 一 个 向 量 量 化 器 219 
































第 三 幅 图 像 显示 神经 网 络 的 输出 ， 如 图 11-9 所 示 。 
© ® Figure 3 
Ground truth vs predicted output 
0.25 
0.20r 
0.15 上 
0.10 上 
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可 以 在 命令 行 工具 中 看 到 如 图 11-10 所 示 的 显示 结 











Epoch: 100; Error: 1.64795788647; 

Epoch: 200; Error: 0.517736068801; 
Epoch: 300; Error: 0.13545620002; 

Epoch: 400; Error: 0.0521272422892; 
Epoch: 500; Error: 0.0465021594702; 
0.0483261849312; 
0.0431681554217; 


Epoch: 600; Error: 
Epoch: 700; Error: 
Epoch: 800; Error: 0.0346446191022; 

The maximum number of train epochs is reached 





图 11-10 


11.5 ”创建 一 个 向 量 量化 器 


你 也 可 以 用 神经 网 络 来 做 向 量 量化 ,向量 量 化 是 和 N 维 空间 的 “四 舍 五 和 人”, 广泛 用 于 各 个 领域 ， 
如 计算 机 视觉 、 自 然 语言 处 理 和 机 器 学 习 等 。 



































详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 
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import numpy as np 
import matplotlib.pyplot as plt 
import neurolab as nl 


(2) 从 data_vq.txt 文 件 加 载 输入 数据 : 


# 定义 输入 数据 

input_file = 'data _ vga.txt' 
input_text = np.loadtxt (input_file) 
data = input_ text[:, 0:2] 

labels = input_text[:, 2:] 


(3) 定义 一 个 两 层 的 学 习 向 量 量化 (Learning Vector Quantization，LVQ ) 神经 网 络 。 吧 数 中 
最 后 一 个 参数 的 数组 指定 了 每 个 输出 的 加 权 百 分 比 (各 加 权 百 分 比 之 和 应 为 1 ): 


# 定义 一 个 两 层 神经 网 络 : 输入 含 10 个 神经 元 ， 输 出 含 4 个 神经 元 
net = nl.net.newlvq(nl.tool.minmax(data), 10, [0.25, 0.25, 0.25, 0.25]) 


(4) 训练 LVQ 神 经 网 络 : 

# 训练 神经 网 络 

error = net.train(data, labels, epochs=100, goal=-1) 
(5) 创建 一 个 用 于 测试 及 可 视 化 的 网 格 点 值 : 


# 创建 输入 网 格 

xx, yy = np.meshgrid(np.arange(0, 8, 0.2), np.arange(0, 8, 0.2)) 
XX.Shape = xx.size, 1 

yy.shape = yy.size, 1 

input_grid = np.concatenate( (xx, yy), axis=1) 


(6) 用 这 些 网 格 点 值 评价 该 网 络 : 
# 用 这 些 网 格 点 值 评价 该 网 络 


output_grid = net.sim(input_grid) 


(7) 在 数据 中 定义 4 个 类 : 

# 定义 4 个 类 

classl = data[labels[:,0] == 1] 
lass2 Se:datallaBDeLs ll] Sal 
class3 = datal[llabels[:,2] == 1] 
class4 = data[labels[:,3] == 1] 


(8) 为 每 个 类 定义 网 格 : 


# 为 4 个 类 定义 网 格 

gridl = input_grid[output_grid[:,0 

grid2, EE iDUt OridlouGoat grld[ ;yl 
[ [i 疙 
[ Ey3 


ll 
ll 


ll 
ll 


ll 
ll 


grid3 = input_grid[output_gridl[: 
grid4d, Ss: LNnput .grid[Loutput _ .grids 


(9) 画 出 输出 结果 : 


FF 上 


‘i 
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# 


画 出 输出 结果 

blt plot'(elassl [0 Glasesl tent) “KO. CLlass2[ls0l, Glass2 el], 7 KO. 

class3[:;0]; Class3 [S51] "ko'y class4[:,0]; class4[l:y1]; "ko") 

plt. plot (oral [sy, 0 gridl[s Ll]. Dt ELd2 0) GELAZT 1]. YR 
grid3 ls. 0 gi Ll "Ce grideb: 0 GEidd[: Ll “EO.) 

.axis([0, 8, 0, 8]) 

.Xlabel ('X-axis') 

.ylabel ('Y-axis') 

.title('Vector quantization using neural networks') 


Ky 
人 ET 和 








p]L.Sshow() 





(10) 全 部 代码 已 经 在 vector_quantization.py 文 件 中 给 出 。 运行 该 代码 , 可 以 看 到 图 像 空 间 被 分 


成 不 同 区 域 ， 如 图 11-11 所 示 。 每 个 区 域 对 应 空间 中 向 量 量化 区 域 列 表 中 的 一 个 。 





[eee Figure 1 


Vector quantization using neural networks 
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这 其 并 多 如 光头 实 妆 各 并 这 项 
a 
eee etd 仙 
XXXXxXxXXxXxXXxxxxxxxxxxxxxxxxxxxxxxxxe@e@ 
XXXXXXxXXXxXXxxxxxXxxXxXxxxxxxxxxxxxxxxxxe®@ 


XXXXXXXXXXXXXXxXXXxXXxXxXxXxxxxxxxxxxxxxxx 














11.6 ”为 序列 数据 分 析 创 建 一 个 递归 神经 网 络 


递归 神经 网 络 能 较 好 地 分 析 序 列 和 时 间 序 列 数据 。 你 可 以 在 http:/www.wildml.com/2015/09/ 


recurrent-neural-networks-tutorial-part-1-introduction-to-rnns 看 到 更 多 关于 递归 神经 网 络 的 详细 内 
容 。 在 处 理 序列 和 时 间 序 列 数 据 时 ,不 能 简单 地 扩展 通用 模型 。 数 据 的 时 序 相关 性 非常 关键 , 构 
模型 时 需要 考虑 到 这 一 点 。 接 下 来 看 看 如 何 创建 递归 神经 网 络 。 




















en 
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详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 
import neurolab as nl 


(2) 定义 一 个 函数 ， 该 函数 利用 输入 参数 创建 一 个 波形 : 


def create waveform(num points): 


# 创建 训练 样本 


datal = 1 * np.cos(np.arange (0, num points)) 
data2 = 2 * np.cos(np.arange (0, num points)) 
data3 = 3 * np.cos(np.arange (0, num points)) 
data4 = 4 * np.cos(np.arange (0, num points)) 





(3) 为 每 个 区 间 创 建 不 同 的 振幅 ， 以 此 来 创建 一 个 随机 波形 : 


# 创建 不 同 的 振 
ampl = np.ones (num points) 

amp2 = 4 + np.zeros (num points) 
amp3 = 2 * np.ones (num points) 
amp4 0.5 + np.zZeros (num points) 


(4) 将 数组 合并 生成 输出 数组 ， 其 中 数据 对 应 输入 ， 而 振幅 对 应 相应 的 标签 : 





Bi 





data = np.array ([datal, data2, data3, data4]) .reshape (num points * 4, 1) 
amplitude = np.array ([[ampl, amp2, amp3, amp4]]).reshape (num points * 4, 1) 


return data, amplitude 


(5) 定义 一 个 函数 ， 用 于 画 出 将 数据 传人 训练 的 神经 网 络 后 的 输出 : 


# 使 用 网 络 画 出 输出 结果 

def draw_output (net, num points_ test): 
data_test, amplitude test = create waveform(num points_test) 
output_test = net.sim(data test) 
plt.plot (amplitude test.reshape (num points_ test * 4)) 
plt.plot (output_test.reshape (num points_ test * 4)) 


(6) 定义 main 函 数 ， 并 生成 示例 数据 : 


生生 name ==' main _' 
# 获取 数据 
num points = 30 
data, amplitude = create waveform(num points) 


(7) 创建 一 个 两 层 的 递归 神经 网 络 : 


# 创建 一 个 两 层 的 神经 网 络 


net = nl.net.newelm([[-2, 2]], [10, 1], [nl.trans.TanSig(), nl.trans.PureLin()]) 
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(8) 设 定 每 层 的 初始 化 函数 : 


# 设 定 初始 化 函数 并 进行 初始 化 


net.layers[0] .initf = nl.init.InitRand([-0.1, 0.1], 'wb') 
net.layers[1] .initf= nl.init.InitRand([-0.1, 0.1], 'wb') 
net .init() 


(9) 训练 递归 神经 网 络 : 


# 训练 递归 神经 网 络 
error = net.train(data, amplitude, epochs=1000, show=100, goal=0.01) 


(10) 为 训练 数据 计算 来 自 网 络 的 输出 : 
# 计算 来 自 网 络 的 输出 


output = net.sim(data) 
(11) 画 出 训练 误差 : 


# 画 出 训练 结果 

plt.subplot (211) 

plt.plot (error) 
plt.xlabel('Number of epochs') 
plt.ylabel ('Error (MSE)') 


(12) 画 出 结果 : 


plt.subplot (212) 

plt.plot (amplitude.reshape (num points * 4)) 
plt.plot (output.reshape (num points * 4)) 
plt.legend(['Ground truth', 'Predicted output']) 


(13) 创建 一 个 随机 长 度 的 波形 ， 查 看 该 神经 网 络 能 否 预 测 : 


# 在 多 个 尺度 上 对 未 知 数据 进行 测试 
plt.figure!() 


plt.subplot (211) 
draw_output (net, 74) 
和 了 CO “3001) 


(14) 创建 另 一 个 长 度 更 短 的 波形 ， 查 看 该 神经 网 络 能 否 预测 : 


Blt seubplot (212) 
draw_output (net, 54) 
Bl “Lim(eLOy. 300]) 


plt.show!() 


(15) 全 部 代码 已 经 在 recurrent_network.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 两 幅 图 像 。 第 
一 幅 图 像 展 示 的 是 训练 数据 的 训练 误差 及 其 性 能 表现 ， 如 图 11-12 所 示 。 
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图 11-12 


第 二 幅 图 像 展示 的 是 该 训练 过 的 神经 网 络 对 于 任意 长 度 序列 的 表现 ， 如 图 11-13 所 示 。 








图 11-13 


11.7 在 光学 字符 识别 数据 库 中 将 字符 可 视 化 225 








可 以 在 命令 行 工具 中 看 到 如 图 11-14 所 示 的 结 


7 过 
oO 





Epoch: ; Error: 
Epoch: ; Error: 
Epoch: ; Error: 0.0902055024828; 
Epoch: ; Error: 0.0662254210369 ; 


2.0202165367; 
0 
0 
0 
Epoch : ; Error: 0.0291456739963; 
0 
0 
0 
0 


.276370891; 


Epoch: ; Error: 0.0274479103273; 
.0221256973779; 
.0227723305931; 
.0207200477057; 


Epoch: ; Error: 
Epoch: ; Error: 
Epoch: ; Error: 
Epoch: 1000; Error: 0.0159299080472; 

The maximum number of train epochs is reached 





图 11-14 


11.7 ”在 光学 字符 识别 数据 库 中 将 字符 可 视 化 


接 下 来 看 看 如 何 利 用 神经 网 络 做 光学 字符 的 识别 。 光学 字符 识别 是 指 识别 图 像 中 的 手写 字符 
的 过 程 。 我 们 会 用 到 http://ai.stanford.edu/~btaskar/ocr 中 提供 的 数据 集 ， 下 载 后 的 默认 文件 名 为 
letter.data。 首 先 来 看 如 何 处 理 这 些 数据 并 将 其 可 视 化 。 














WU 











详细 步骤 


(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 





import os 
import sys 


import cv2 
import numpy as np 


(2) 定义 输入 文件 名 : 

# 加 载 数据 

input_file = 'letter.data' 
(3) 定义 可 视 化 参数 : 


# 定义 可 视 化 参数 
scaling_factor = 10 
start_index = 6 
end_index = -1 

h, w= 16, 8 


(4) 循环 迭代 文件 直至 用 户 按 下 Esc 钢 


# 循环 直至 用 户 按 下 Esc 键 


with open(input_file, 'r') as f: 




















局 
oO 
sn 





隔 成 字符 : 


衬 


日 Tab 分 隔 符 将 行 


for line in f.readlines(): 
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data = np.array ([255*float (x) for x in line.split('\t') 
[start_index:end_ index]]) 


(5) 将 数组 重新 调整 为 所 需 的 形状 ， 调 整 大 小 并 将 其 展示 : 











img = np.reshape(data, (h,w)) 
img_scaled = cv2.resize(img, None, fx=scaling_factor, fy=scaling_factor) 
cv2.imshow('Image', img_scaleqd) 


(6) 如 果 用 户 按 下 Esc 键 ， 则 终止 循环 : 


C = CcV2.waitKey () 
2 
break 


(7) 全 部 代码 已 经 在 visualize_characters.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 看 到 一 个 展示 字符 
的 窗 体 。 例 如 ， 字母 “o” 的 形状 如 图 11-15 所 示 。 





4 


Image 





字母 “i” 的 形状 如 图 11-16 所 示 。 











图 11-16 


11.8 ”用 神经 网 络 创 建 一 个 光学 字符 识别 器 


知道 如 何 与 数据 交互 后 ， 接 下 来 创建 一 个 基于 神经 网 络 的 光学 字符 识别 系统 。 
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详细 步骤 
(1) 创建 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
import neurolab as nl 


(2) 定义 输入 文件 名 称 : 
# 输入 文件 
input_file = 'letter.data' 


(3) 在 用 神经 网 络 处 理 大 量 数据 时 ， 往 往 需 要 花费 很 多 时 间 来 做 训练 。 为 了 展示 如 何 创 建 这 
个 系统 ， 这 里 只 使 用 20 个 数据 点 : 


# 从 输入 文件 加 载 数据 点 
num datapoints = 20 


(4) 观察 数据 ， 可 以 看 到 在 前 20 行 有 7 个 不 同 的 字符 。 将 其 定义 如 下 : 


# 不 同 的 字符 
orig_labels = 'omandig' 





# 不 同 字符 的 数量 
num _ output = lenl(orig_ labels) 


(5) 用 数据 集 的 90% 做 训练 ， 剩 下 的 10% 做 测试 。 定 义 训 练 和 测试 参数 如 下 : 


# 定义 训练 和 测试 参数 
num train = int(0.9 * num datapoints) 
num test = num datapoints - num train 


(6) 数据 文件 中 每 行 的 起 始 索 引 值 和 终止 索引 值 设置 如 下 : 


# 定义 数据 集 提取 参数 
start_index = 6 
engd_index = - 


(7) 生成 数据 集 : 


# 生成 数据 集 
data = [] 
labels = [] 
with open (input_file, “"r') as f: 
for line in f.readqlines() : 
# 按 Tab 键 分 割 
list_vals = line.split('\t') 


(8) 增加 一 个 错误 检查 步 又 ， 以 查看 这 些 字符 是 否 在 标签 列表 中 : 
# 如 果 字 符 不 在 标签 列表 中 ， 跳 过 


if 1ist_vals[1] not in orig_ labels: 
Continue 


FEF3 





Wtr 
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(9) 提取 标签 ， 并 将 其 添加 到 主 列表 的 后 面 : 


# 提取 标签 ， 并 将 其 添加 到 主 列表 的 后 面 

label = np.zeros((num output, 1)) 
labell[orig_ labels.index(list vals[1])] = 1 
labels.append (label) 


(10) 提取 字符 ， 并 将 其 添加 到 主 列表 的 后 面 : 


# 提取 字符 ， 并 将 其 添加 到 主 列表 的 后 面 
cur_char = np.array ([float (x) for x in list vals[start_ index:end index]]) 
data.append (cur_char) 


(11) 当 有 足够 多 数据 时 跳出 循环 : 
# 当 有 足够 多 数据 时 跳出 循环 


if len(data) >= num datapoints: 
break 


(12) 将 以 上 数据 转换 成 NumPy 数 组 : 
# 将 数据 转换 成 NumPy 数 组 


data = np.asfarray (data) 
labels = np.array (labels) .reshape (num datapoints, num output) 


(13) 提取 数据 的 维度 信息 : 


# 提取 数据 的 维度 信息 


num dims = len(data[0]) 
(14) 用 10 000 次 迭代 来 训练 神经 网 络 : 


# 创建 并 训练 神经 网 络 








net = nl.net.newff([[0, 1] for _ in range(len(data[0]))], [128, 16, num output]) 
net.trainf = nl.train.train gd 
error = net.train(data[:num train,:], labels[:num train,:], epochs=10000, 


show=100, goal=0.01) 
(15) 为 测试 输入 数据 预测 输出 结构 : 


# 为 测试 输入 数据 预测 输出 结构 
predicted output = net.sim(data[lnum train:, :]) 
print "\nTesting on unknown data:" 
for i in range(num test): 
print "\nOriginal:", orig_ labels[np.argmax(labels[i])] 
print "Predicted:", orig_ labels[np.argmax (predicted output[i])] 


(16) 全 部 代码 已 经 在 ocr.py 文 件 中 给 出 。 运 行 该 代码 ， 可 以 在 命令 行 工 具 中 看 到 如 图 11-17 所 
示 的 结果 。 
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Epoch: 8900; Error: 
Epoch: 9000; Error: 
Epoch: 9100; Error: 


0.167967242056 ; 
0.141695146517; 
0.123315386106; 
Epoch: 9200; Error: 0.123516370118; 
Epoch: 9300; Error: 0.153659730139; 
Epoch: 9400; Error: 0.106912207871; 
Epoch: 95060; Error: 0.0833274962321; 
Epoch: 9600; Error: 0.204787347758; 
Epoch: 9700; Error: 0.208864612943; 
Epoch: 9800; Error: 0.177338615833; 
Epoch: 9900; Error: 0.152109654098; 
Epoch: 10000; Error: 0.130557716464; 
The maximum number of train epochs is reached 





图 11-17 


神经 网 络 的 输出 结果 如 图 11-18 所 示 。 


Testing on unknown data: 





图 11-18 





可 视 化 数据 








在 这 一 音 ， 我 们 将 介绍 以 下 主题 : 


口 画 3D 散 点 图 

口 画 气泡 图 

口 画 动态 气泡 网 

口 画 饼 图 

口 画 日 期 格式 的 时 间 序 列 数 据 
口 画 直 方 

口 可 视 化 热力 图 

口 动态 信号 的 可 视 化 模拟 








12.1 简介 


数据 可 视 化 是 机 器 学 习 的 核心 , 利用 它 有 助 于 制定 正确 的 策略 来 理解 数据 。 数据 的 视觉 表示 
帮助 我 们 选择 正确 的 算法 。 数据 可 视 化 的 主要 目标 之 一 就 是 用 图 和 表 清 晰 地 表达 出 数据 ,以 便 我 
们 更 准确 、 更 有 效 地 交流 信息 。 

在 现实 世界 中 总 会 存在 各 种 数值 数据 ,我 们 想 将 这 些 数值 数据 编码 成 图 、 线 、 点 、 条 等 ， 以 
便 直 观 地 显示 这 些 数 值 中 包含 的 信息 , 同时 可 以 使 复杂 分 布 的 数据 更 容易 被 理解 和 应 用 。 这 一 过 
程 被 广泛 应 用 于 各 种 场合 之 中 ,包括 对 比分 析 、 增 长 率 跟踪 、 市 场 分 布 、 民 意 调查 等 。 

我 们 用 不 同 的 图 来 展示 各 个 变量 之 间 的 模式 或 关系 ,比如 用 直方 图 展示 数据 的 分 布 。 如果 想 
查找 一 个 特定 的 测量 ， 可 以 用 表格 表示 。 这 一 章 将 讨论 各 种 场景 下 最 合适 的 可 视 化 方式 。 























12.2 男 3D 散 点 图 


这 一 他 将 学 习 如 何 画 3D 散 点 图 ， 并 学 习 如 何在 三 维 空间 中 可 视 化 这 些 点 。 
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详细 步骤 
(1) 生成 一 个 新 的 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 
from mpl_toolkits.mplot3d import Axes3D 


Q2) 生成 一 个 空白 图 像 : 
# 生成 一 个 空白 图 像 


fig = plt.figure!() 
ax = fig.add_ subplot(111, projection='3d') 


(3) 定义 应 该 生成 的 值 的 个 数 : 


# 定义 生成 的 值 的 个 数 
ni 证 区 50 


(4) 生成 一 个 lambda 函 数 来 生成 给 定 范 围 的 值 : 


# 生成 Iambqa 函 数 来 生成 给 定 范 围 的 值 





f = lambda minval, maxval, n: minval + (maxval - minval) * np.random.rand(n) 
(5) 用 这 个 函数 生成 X、Y 和 2 值 : 

# 生成 值 

和 

y=Vals = ££(=L0, 707 mn) 

怪人 站 

(6) 画 出 这 些 值 : 

# 画 出 这 些 值 


axX .SCAaAtter (xX VaLls; Y vals; 2 vals; Ca"k' BEKeE e+) 
ax.set_xlabel('X axis') 
ax.set_ylabel('Y axis') 
ax.set_zlabel('Z axis') 





plt.show!() 


(7) 全 部 代码 已 经 包含 在 scatter 3d.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 12-1 所 示 的 图 像 。 
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Oa Figure 1 





史册 和 上 大 
Z axis 


















































12.3” 画 气泡 图 
下 面 看 看 如 何 画 气泡 图 。 在 二 维 的 气泡 图 中 ， 每 一 个 圆圈 的 大 小 表示 这 个 点 的 幅 值 。 


详细 步骤 
(1) 生成 一 个 Python 文件 ， 并 导入 如 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 


(2) 定义 要 生成 的 值 的 个 数 : 
# 定义 值 的 个 数 


num vals = 40 


(3) 生成 随机 的 x 值 和 y 值 : 


# 生成 随机 数 
x np.random.rand (num_vals) 
y np.random.rand (num_vals) 


(4) 在 气泡 图 中 定义 每 个 点 的 面积 
# 定义 每 个 点 的 面积 
# 指定 最 大 半径 


max_radius = 25 
area = np.pi * (max _ radius * np.random.rand (num vals)) 


大 大 2 
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(5) 定义 颜色 


# 生成 颜色 


colors = np.random.rand (num vals) 
(6) 画 出 这 些 值 : 


# 画 出 数据 点 


plt.scatter(x, y, Ss=area, C=colors, alpha=1.0) 


plt.show!() 


(7) 全 部 代码 已 经 包含 在 bubble_plot.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 12-2 所 示 的 图 像 。 



























































12.4 ” 男 动 态 气 泡 图 
下 面 来 看 看 如 何 画 动态 气泡 图 。 如 果 需 要 将 动态 的 数据 可 视 化 , 那 就 需要 用 到 该 可 视 化 方式 。 


详细 步骤 
(1) 生成 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 
from matplotlib.animation import FuncAnimation 
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(2) 定义 一 个 tracker 孔 数 ， 该 函数 将 动态 更 新 气泡 图 : 
def tracker (cur_num): 


# 获取 当前 索引 


cur_index = cur_num % num points 
(3) 定义 颜色 : 


# 定义 数据 点 颜色 
datapoints[ "colorv hl: 3 "10 


(4) 更 新 圆圈 的 大 小 : 


# 更 新 圆圈 的 大 小 


datapoints['size'] += datapoints['growth'] 


(5) 更 新 集合 中 最 老 的 数据 点 的 位 置 : 


# 更 新 集合 中 最 老 的 数据 点 的 位 置 





datapoints['position'] [cur_index] = np.random.uniform(0, 1, 2) 
datapoints['size'] [cur_index] = 7 

datapoints['color'] [cur_index] = (0, 0, 0, 1) 
datapoints['growth'] [cur_index] = np.random.uniform(40, 150) 


(6) 更 新 散 点 图 的 参数 : 


# 更 新 散 点 图 的 参数 
scatter_plot.set edgecolors (datapoints['color']) 
scatter_plot.set_sizes(datapoints['size']) 
scatter_plot.set_ offsets(datapoints['position']) 


(7) 定义 main 函 数 并 生成 一 个 空白 的 图 像 : 





生生 name_ ==' main _': 
# 生成 一 个 图 像 
fig = plt.figure(figsize=(9, 7), facecolor=(0,0.9,0.9)) 
ax = fig.add axes([0, 0, 1, 1], frameon=False) 
ax.set_xlim(0, 1), ax.set_ xticks([]) 
ax.set_ylim(0, 1), ax.set yticks([]) 


(8) 定义 在 任意 时 间 点 上 的 点 的 个 数 : 


# 在 随机 位 置 创建 和 初始 化 数据 点 ， 并 以 随机 的 增长 率 进 行 初始 化 


num points = 20 


(9) 用 随机 值 定义 这 些 数 据点 : 








datapoints = np.zeros (num points, dtype=[('position', float, 2), 
("Sl2G", float, 1)y. (growth’, floaty 1)» ("BolGr’,. fLodt;, ”4)]) 

datapoints['position'] = np.random.uniform(0, 1, (num points, 2)) 

datapoints['growth'] = np.random.uniform(40, 150, num points) 


(10) 创建 一 个 散 点 图 ， 该 散 点 图 的 每 一 帧 都 会 更 新 : 





# 创建 一 个 每 一 帧 都 会 更 新 的 散 点 图 

scatter_plot = ax.scatter(datapoints['position'] [:, 0], datapoints['position'][:, 1], 
s=datapoints['size'], lw=0.7, edgecolors=datapoints['color'], 
facecolors='none') 


(11) 用 rackezr 函 数 启动 动态 模拟 : 
# 用 tracker 沁 数 启动 动态 模拟 


animation = FuncAnimation(fig, tracker, interval=10) 
plt.show!() 


(12) 全 部 代码 已 经 包含 在 dynamic_bubble_plot.py 文 件 中 。 运 行 该 程序 ， 可 以 看 到 如 图 12-3 所 
示 的 图 像 。 
























































12.5 ” 男 饼 图 


下 面 来 看 看 如 何 画 一 个 饼 图 。 如 果 想 将 一 组 数据 中 各 标签 的 比例 值 可 视 化 展现 时 , 可 以 用 到 
该 可 视 化 方式 。 





详细 步骤 
(1) 生成 一 个 Python 文件 ， 并 导入 以 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 
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(2) 定义 各 标签 和 相应 的 值 : 


# 按照 顺 时 针 方向 定义 各 标签 和 相应 的 值 
data = {'Apple': 26, 
"MANGO 17 
'Pineapple': 21, 
'Banana': 29, 
'Strawberry': 11} 


(3) 定义 可 视 化 的 颜色 : 
# 定义 可 视 化 的 颜色 


colors = ['orange', 'lightgreen', 'lightblue', 'gold', 'cyan'] 


(4) 定义 一 个 变量 ， 以 突出 饼 图 的 一 部 分 ,将 其 与 其 他 部 分 分 离开 。 如 果 不 想 突 出 任何 部 分 ， 
将 所 有 值 设置 为 0: 

# 定义 是 否 需要 突出 一 部 分 

explode = (0, 0, 0, 0, 0) 


(5) 画 饼 图 。 注 意 ， 如 果 使 用 Python 3 版 本 ， 应 该 在 下 面 的 函数 中 调用 1ist (data.values () ) : 
# 画 饼 图 
plt.pie(data.values(), explode=explode, labels=data.keys(), 

Colors=colors, autopct='%1.1f%%', shadow=False, startangle=90) 


# 设置 饼 图 的 宽 高 比 ，“equal” 表 示 我 们 项 望 它 是 圆 形 的 
plt.axis('equal') 


plt.show!() 


(6) 全 部 的 代码 已 经 包含 在 pie_chart.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 12-4 所 示 的 图 像 。 















































图 12-4 
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如 果 将 explode 数 组 设置 为 (0，0.2，0，0，0)，, 那么 Strawberry 部 分 将 分 离 突出 显示 ， 如 


图 12-5 所 示 。 
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图 12-5 


12.6 男 日 期 格式 的 时 间 序 列 数据 


下 面 来 看 看 如 何 用 日 期 格式 画 时 间 序列 数据 。 如 果 要 将 各 时 期 的 股票 数据 进行 可 视 化 展现 ， 


可 以 使 用 该 可 视 化 形式 。 


详细 步骤 
(1) 生成 一 个 Python 文件 ， 并 导 和 人 如 下 程序 包 : 


import numpy 

import matplotlib.pyplot as plt 

from matplotlib.mlab import csv2rec 
import matplotlib.cbook as cbook 

from matplotlib.ticker import Formatter 


(2) 定义 一 个 用 于 将 日 期 格式 化 的 类 。init 函 数 设 置 类 变量 : 
# 定义 一 个 类 将 日 期 格式 化 


class DataFormatter (Formatter): 

def _ init__(self, dates, 
self.dates = dates 

self.date_format = date._ format 


date_format='%Y-%Sm-%d'): 
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(3) 提取 给 定时 间 的 值 ， 并 用 如 下 格式 将 其 返回 : 


# 提取 “position” 位 置 的 时 间 世 的 值 
def _ call__(self, t, position=0): 
index = int (round(t)) 
if index >= len(self.dates) or index < 0: 
return '" 


return self.dates[index] .strftime(self.date_format) 
(4) 定义 main 函 数 。 我 们 将 用 到 matplotlib 中 苹果 公司 的 股票 报价 CSV 文 件 ; 
Tf name =='_ main 
# 输入 包含 股价 的 CSV 文 件 
input_file = cbook.get_sample data('aapl.csv', asfileobj=False) 


(5) 加 载 CSV 文 件 : 


# 将 CSV 文 件 加 载 到 numpy 记 录 数 组 中 
data = csv2rec (input_file) 


(6) 提取 这 些 值 的 子 集 ， 并 将 其 画 出 : 


# 提取 子 集 并 画 出 
data = qata[-70:] 


(7) 创建 一 个 格式 化 对 象 ， 并 将 其 用 日 期 数据 初始 化 : 


# 创建 一 个 日 期 格式 化 对 象 


formatter = DataFormatter (data.date) 
(8) 定义 X 轴 和 Y 轴 : 


# 广 轴 


x_vals = numpy.arange (len (data)) 














# Y 轴 表示 收盘 价 


y_vals = data.close 


(9) 画 出 数据 : 


# 画 出 数据 

fid; dx 三 DlIt SUuboLots() 
ax.xaxis.set_major_formatter (formatter) 
ax.plot (x_vals, y_vals, 'o-") 
fig.autofmt_xdate!() 

plt.show!() 


(10) 全 部 的 代码 已 经 包含 在 time_series.py 文 件 中 。 运行 该 代码 , 可 以 看 到 如 图 12-6 所 示 的 图 像 。 
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12.7 画 直 方 图 
下 面 来 看 看 如 何 画 直方 图 。 如 果 需 要 对 比 两 组 数据 ， 可 以 用 直方 图 做 对 比 。 


详细 步骤 
(1) 生成 一 个 Python 文件 ， 并 导入 如 下 程序 包 : 


Import numpy as np 
import matplotlib.pyplot as plt 


(2) 本 例 对 比 苹 果 和 橘子 的 产量 ， 定 义 如 下 数据 : 


# 输入 数据 

appLles ="L30% 25 2221.36, 2 和 29 
Granges= [2 .3333 .L921 335 201] 
# 设置 组 数 

num_ groups = lenl(apples) 

(3) 创建 一 个 图 像 并 定义 其 参数 : 

# 创建 图 像 


fig, ax = DlLLt.subplots() 
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# 定义 X 轴 


indices = np.arange (num groups) 
# 直方 图 的 宽度 和 透明 度 


bar width = 0.4 
opacity = 0.6 


(4) 画 直方 图 : 
# 画 直 方 图 


hist_apples = plt.bar(indices, apples, bar_ width, 
alpha=opacity, color='g', label='Apples') 


hist_oranges = plt.bar(indices + bar width，oranges，bar _ width， 
alpha=opacity, color='b', label='Oranges') 


(5) 设置 直方 图 的 参数 : 

plt.xlabel ('Month') 

plt.ylabel('Production quantity') 

plt.title('Comparing apples and oranges') 

plt.xticks (indices + bar wigdth, ('Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun')) 
plt.ylim([0, 45]) 

plt.legend() 

plt.tight_layout() 





plt.show!() 


(6) 全 部 的 代码 已 经 包含 在 histogram.py 文 件 中 。 运行 该 代码 , 可 以 看 到 如 图 12-7 所 示 的 图 像 。 





©@@e@ Figure 1 


Apples 
ll Oranges 
























































图 12-7 
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12.8 可视化 热力 图 

接 下 来 看 看 如 何 画 热力 图 。 当 两 组 数据 的 各 点 具有 一 定 的 相关 性 时 ,可 以 用 这 种 图 形 表现 方 
式 。 和 矩阵 包含 的 单个 值 都 被 表示 为 图 中 的 颜色 值 。 
详细 步骤 


(1) 生成 一 个 Python 文件 ， 并 导入 如 下 程序 包 : 


Import numpy as np 
Import matplotlib.pyplot as plt 


zz AN 小 
(2) 定义 两 组 数据 : 
# 定义 两 组 数据 
groupl = ['France', 'Italy', 'Spain', 'Portugal', 'Germany'] 
group2 = ['Japan', 'China', 'Brazil', 'Russia', 'Australia'] 


(3) 生成 一 个 随机 二 维和 矩阵 : 


# 生成 一 些 随机 数 


data = np.random.rand(5, 5) 
(4) 创建 一 个 图 像 : 


# 创建 一 个 图 像 
fig, ax = plt.subpplots() 


(5) 创建 一 个 热力 图 : 


# 创建 一 个 热力 图 


heatmap = ax.pcolor(data, cmap=plt.cm.gray) 


(6) 画 出 这 些 值 : 





# 将 坐标 轴 放 在 图 块 的 中 间 
ax.set_ xticks (np.arange (data.shape[0]) 
ax.set_ yticks (np.arange (data.shape[1]) 


+ 0.5, minor=False) 
+ 0.5, minor=False) 
# 让 热力 图 显示 成 一 张 表 

ax.invert_yaxis() 

ax.xaxis.tick_ top() 


# 增加 坐标 轴 标 签 
ax.set_ xticklabels (group2, minor=False) 


ax.set_ yticklabels (groupl, minor=False) 


plt.show!() 


(7) 全 部 的 代码 已 经 包含 在 heatmap.py 文 件 中 。 运 行 该 代码 ， 可 以 看 到 如 图 12-8 所 示 的 图 像 。 | 
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图 12-8 


12.9 ”动态 信号 的 可 视 化 模拟 


如 果 需 要 将 实时 信号 可 视 化 , 最 好 的 方式 是 看 到 波形 是 如 何 产生 的 。 这 一 节 将 讲解 如 何 对 实 
时 动态 变化 的 信号 进行 模拟 ， 并 将 其 可 视 化 。 




















详细 步骤 
(1) 生成 一 个 Python 文件 ， 并 导入 如 下 程序 包 : 


import numpy as np 
import matplotlib.pyplot as plt 
import matplotlib.animation as animation 


(2) 创建 一 个 函数 ， 用 于 生成 阻尼 正弦 信号 : 


# 生成 信号 数据 
def generate datal(length=2500, t=0, step_size=0.05): 
for count in range(length): 
t += step_size 
signal = np.sin(2*np.pi*t) 
damper = np.exp(-t/8.0) 
yield t, signal * damper 
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(3) 定义 一 个 ijnitializer 函 数 ， 用 于 将 图 像 中 的 参数 初始 化 : 


# 定义 初始 化 函数 

def :initializez( 
peak_val = 1. 
buffer_val = 


(4) 设置 这 些 参数 : 


) : 
0 
0 .1 


ax.Set_ylim(-peak_ val * (1 + buffer val), peak _ val * (1 + buffer_ val) ) 
ax.set_xlim(0, 10) 

del x_vals[:] 

del y_vals[:] 

line.set data(x_vals, y_vals) 

return line 


(5) 定义 一 个 函数 来 画 出 这 些 值 : 


def draw(data): 
# 升级 数据 
t, signal = data 
x_vals.append(t) 
y_vals.append (signal) 
= ax.get_xlim() 





(6) 如 果 这 些 值 超出 当前 X 轴 最 大 值 的 范围 ， 那 么 更 新 X 轴 最 大 值 并 扩展 图 像 : 


和 
ax.set_xlim(x min, 2 * x_max) 
ax.figure.canvas.draw() 


line.set_ data(x_ vals, y_vals) 





return line 








(7) 定义 main 也 数 : 
if name ==' main _': 
# 创建 图 形 
fig ax Blt UDBDLots() 
ax.grid() 
(8) 提取 线 : 
# 提取 线 
line, = ax.plot ([], [], lw=1.5) 
(9) 创建 变量 ， 并 用 空 列表 对 其 初始 化 : 
# 创建 变量 


x _ vals，yYy_ valsg = []，[] 


(10) 用 动画 器 对 象 定义 并 启动 动画 : 
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# 定义 动画 器 对 象 
animator = animation.FuncAnimation(fig, draw, generate_ data, 
blit=False, interval=10, repeat=False, init_ func=initializer) 


plt.show!() 


(11) 全 部 的 代码 已 经 包含 在 moving wave_variable.py 文 件 中 。 运行 该 代码 , 可 以 看 到 如 图 12-9 
所 示 的 图 像 。 
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